ai-saas / saas-search

09 Jan, 2026

3 commits

b1bafbbc blog Browse Code »

tangwang
2026-01-09 11:40:49 +0800
cd9191b9 blogs Browse Code »

tangwang
2026-01-09 11:38:46 +0800
323a720b docs Browse Code »

tangwang
2026-01-09 11:26:27 +0800

07 Jan, 2026

1 commit

fbc7f114 docs Browse Code »

tangwang
2026-01-07 17:21:14 +0800

06 Jan, 2026

5 commits

80f87e57 多语言索引修改对应的索引创建、数据灌入脚本、文档同步修改 Browse Code »

tangwang
2026-01-06 22:40:42 +0800
430ffe48 多语言索引调整 Browse Code »

tangwang
2026-01-06 20:20:09 +0800
2739b281 多语言索引调整 Browse Code »

tangwang
2026-01-06 19:59:36 +0800

d7d48f52 改动（mapping + 灌入结构） ... Browse Code »

mappings/search_products.json：把原来的 title_zh/title_en/brief_zh/... 改成 按语言 key 的对象结构（ /products/_doc/1 { "title": {"en":...} } ）
同时在这些字段下 预置了全部 analyzer 语言:
arabic, armenian, basque, brazilian, bulgarian, catalan, chinese, cjk, czech, danish, dutch, english, finnish, french, galician, german, greek, hindi, hungarian, indonesian, italian, norwegian, persian, portuguese, romanian, russian, spanish, swedish, turkish, thai

实现为 type: object + properties，同时满足“按语言灌入”和“按语言 analyzer”。
索引灌入（全量/增量/transformer）已同步改完
indexer/document_transformer.py：输出从 title_zh/title_en/... 改为：
title: {<primary_lang>: 原文, en?: 翻译, zh?: 翻译}
brief/description/vendor 同理
category_path/category_name_text 也改为语言对象（避免查询侧继续依赖旧字段）
indexer/incremental_service.py：embedding 取值从 title_en/title_zh 改为从 title 对象里优先取 en，否则取 zh，否则取任一可用语言。
查询侧与配置、API/文档已同步
search/es_query_builder.py：查询字段统一改成点路径：title.zh / title.en / vendor.zh / vendor.zh.keyword / category_name_text.zh 等。
config/config.yaml：field boosts / indexes 里的字段名同步为新点路径。
API & formatter：
api/result_formatter.py 已支持新结构（并保留对旧 *_zh/_en 的兼容兜底）。
api/models.py、相关 docs/examples 里的 vendor_zh.keyword 等已更新为 vendor.zh.keyword。
文档/脚本：docs/、README.md、scripts/ 里所有旧字段名引用已批量替换为新结构。

2026-01-06 19:42:20 +0800

62b7972c docs Browse Code »

tangwang
2026-01-06 10:28:39 +0800

04 Jan, 2026

1 commit

472cca0c doc Browse Code »

tangwang
2026-01-04 18:15:10 +0800

31 Dec, 2025

4 commits

72e7256a 清理文件 Browse Code »

tangwang
2025-12-31 17:27:12 +0800
f1505d1b up Browse Code »

tangwang
2025-12-31 17:06:49 +0800
dd48ee67 up Browse Code »

tangwang
2025-12-31 17:01:09 +0800
768ad710 MySQL到ES字段映射说明-业务版.md Browse Code »

tangwang
2025-12-31 16:58:16 +0800

29 Dec, 2025

2 commits

74cca190 cnclip Browse Code »

tangwang
2025-12-29 23:22:14 +0800
40f1e391 cnclip Browse Code »

tangwang
2025-12-29 23:04:02 +0800

27 Dec, 2025

2 commits

ce8fdd9f 为前端搜索输入框的自动补全（suggest）功能添加 tenant_id 参数，并实现配置化映射。 ... Browse Code »

修改内容
1. 在 tenant_facets_config.js 中添加映射配置
添加 TENANT_ID_MAPPING 配置对象，包含映射关系：
170 → 170
171 → 170
162 → 0
添加 getMappedTenantId() 函数，用于获取映射后的 tenant_id

2025-12-27 15:13:29 +0800

e4a39cc8 索引隔离。不同的tenant_id用不同的索引 Browse Code »

tangwang
2025-12-27 15:02:31 +0800

26 Dec, 2025

3 commits

775db2b0 xinfer Browse Code »

tangwang
2025-12-26 23:29:24 +0800
15eae5ee add image_embedding_512 Browse Code »

tangwang
2025-12-26 16:49:32 +0800
b401ef94 third-party/xinference/ Browse Code »

tangwang
2025-12-26 16:48:37 +0800

25 Dec, 2025

3 commits

11a66fa4 feat: add clip-as-service as git submodule (pinned to commit 03410570) ... Browse Code »
```
- Added jina-ai/clip-as-service as a git submodule
- Pinned to commit 03410570 (version 0.8.4)
- Will be used for CLIP image/text embedding services
```
tangwang
2025-12-25 18:35:50 +0800

d8ca3b13 修复分面结果各个选项结果数和实际不一致的问题（因为统计的是子文档个数） ... Browse Code »

问题：nested 聚合统计的是嵌套文档（specifications 条目）数量，而不是产品（父文档）数量。
修复内容：
在 es_query_builder.py 中：为 specifications 分面的聚合添加了 reverse_nested 子聚合，用于统计产品数量：
   "aggs": {       "product_count": {           "reverse_nested": {}       }   }
在 result_formatter.py 中：更新读取逻辑，从 product_count.doc_count 读取产品数量，而不是直接使用 doc_count。
修复效果：
之前：分面显示 62（统计了 62 个嵌套文档/规格条目）
现在：分面显示实际的产品数量（例如 2），与搜索结果数量一致

2025-12-25 13:12:34 +0800

bad3b18b fix facet for 172 Browse Code »

tangwang
2025-12-25 08:51:04 +0800

22 Dec, 2025

5 commits

0a3764c4 优化embedding模型加载 Browse Code »

tangwang
2025-12-22 14:38:13 +0800
7bfb9946 向量化模块 Browse Code »

tangwang
2025-12-22 14:25:15 +0800
9c712e64 增加索引字段qanchors keywords Browse Code »

tangwang
2025-12-22 12:32:06 +0800
3438fe74 clean Browse Code »

tangwang
2025-12-22 10:16:51 +0800
7ac1534b disjunctive 修改默认值为false，文档完善 Browse Code »

tangwang
2025-12-22 10:15:19 +0800

20 Dec, 2025

2 commits

70a318c6 fix bug Browse Code »

tangwang
2025-12-20 14:56:47 +0800
70dab99f add logs Browse Code »

tangwang
2025-12-20 14:50:13 +0800

19 Dec, 2025

7 commits

92d5eb07 fix：前端直接显示了类目ID。因为类目表中不存在这个类目ID，因此找不到类目名称，因此直接用了ID。 Browse Code »

tangwang
2025-12-19 18:21:50 +0800
b2e50710 BgeEncoder.encode(...) 返回：np.ndarray(dtype=object)，每个元素要么是 np.ndarray，要么是 None。 ... Browse Code »
```
cache/service 任一环节返回坏 embedding（含 NaN/Inf/空/非 ndarray）都会 视为 None，并且坏 cache 会被自动删除。
```
tangwang
2025-12-19 18:05:59 +0800
5c2b70a2 search_products.json Browse Code »

tangwang
2025-12-19 11:19:58 +0800

f62a541c 将 uvicorn 的默认线程池调整为 48： ... Browse Code »

1. api/indexer_app.py（索引服务，端口 6004）
在 startup_event() 中添加线程池大小配置
使用 anyio.to_thread.current_default_thread_limiter() 设置线程池大小为 48
添加日志记录，便于确认配置是否生效
2. api/app.py（搜索服务，端口 6002）
在 startup_event() 中添加线程池大小配置
同样设置为 48 个线程
添加日志记录

2025-12-19 09:06:32 +0800

791a7909 支持并发的增量和全量请求: ... Browse Code »

1. 添加 asyncio 导入
在文件顶部添加 import asyncio，用于在线程池中执行同步阻塞操作
2. 修改 /indexer/reindex 路由（全量索引）
使用 loop.run_in_executor() 将 service.bulk_index() 放到线程池执行
避免阻塞事件循环，允许其他请求并行处理
3. 修改 /indexer/index 路由（增量索引）
使用 loop.run_in_executor() 将 service.index_spus_to_es() 放到线程池执行
确保全量索引和增量索引可以并行执行
工作原理
线程池执行：同步阻塞操作（如数据库查询、ES 写入）在线程池中执行，不阻塞事件循环
并发支持：
全量索引占用一个线程
增量索引可同时使用其他线程
多个增量请求可并行处理
资源管理：
数据库连接池（pool_size=10, max_overflow=20）可支持并发请求
uvicorn 默认线程池（40 个线程）可处理多个并发请求

2025-12-19 09:04:19 +0800

d6606d7a 清理旧代码，具体如下： ... Browse Code »

1. 删除 IndexingPipeline 类
文件：indexer/bulk_indexer.py
删除：IndexingPipeline 类（第201-259行）
删除：不再需要的 load_mapping 导入
2. 删除 main.py 中的旧代码
删除：cmd_ingest() 函数（整个函数）
删除：ingest 子命令定义
删除：main() 中对 ingest 命令的处理
删除：不再需要的 pandas 导入
更新：文档字符串，移除 ingest 命令说明
3. 删除旧的数据导入脚本
删除：data/customer1/ingest_customer1.py（依赖已废弃的 DataTransformer 和 IndexingPipeline）

2025-12-19 08:57:36 +0800

5ac64fc7 多语言查询 Browse Code »

tangwang
2025-12-19 08:32:19 +0800

18 Dec, 2025

2 commits

351a7eb5 1. 新的重建索引脚本 ... Browse Code »

新增：scripts/recreate_index.py
功能：初始化 indexer 的 ES/DB 服务，然后调用 BulkIndexingService.bulk_index(…, recreate_index=True) 为指定 tenant_id 做「删除并重建索引 + 全量导入」。
用法示例：
cd /home/tw/SearchEngine# 使用默认 batch_size=500python scripts/recreate_index.py 162# 指定 batch_sizepython scripts/recreate_index.py 162 --batch-size 1000
脚本依赖和 Indexer API 一样的环境变量：DB_HOST/DB_PORT/DB_DATABASE/DB_USERNAME/DB_PASSWORD、ES_HOST/ES_USERNAME/ES_PASSWORD。
2. 清理与引用更新
原来的 scripts/recreate_index.sh 已经删除。
api/routes/indexer.py 里的说明改成引用 scripts/recreate_index.py。
docs/搜索API对接指南.md 中的提示也从 .sh 改为：
> python scripts/recreate_index.py <tenant_id> [--batch-size 500]

2025-12-18 20:28:23 +0800

345d960b 1. 删除全局 enable_translation 配置 ... Browse Code »

config/config_loader.py: 从 QueryConfig 类中删除 enable_translation 字段
config/config.yaml: 删除 enable_translation: true 配置项
config/config_loader.py: 从 to_dict() 方法中删除相关输出
2. 索引阶段（离线）- 使用租户配置
indexer/indexing_utils.py:
根据 tenant_config.translate_to_en 和 translate_to_zh 决定是否初始化 translator
只有任一方向开启时才创建 translator
indexer/document_transformer.py:
_fill_text_fields 从 tenant_config 读取 translate_to_en 和 translate_to_zh
调用 translate_for_indexing 时传递这两个参数
更新了文档注释
3. 查询阶段（在线）- 使用租户配置
query/query_parser.py:
parse() 方法新增 tenant_id 参数
根据租户配置决定翻译目标语言（translate_to_zh / translate_to_en）
如果两个都是 false，跳过翻译阶段
translator 属性不再依赖 enable_translation，总是可以初始化
search/searcher.py:
search() 方法中根据租户配置计算 enable_translation（用于日志和 metadata）
调用 query_parser.parse() 时传递 tenant_id
4. 翻译器方法更新
query/translator.py:
translate_for_indexing() 新增 translate_to_en 和 translate_to_zh 参数（默认 True 保持向后兼容）
根据这两个参数决定翻译目标
更新了文档注释

2025-12-18 19:18:28 +0800