ai-saas / saas-search

26 Jan, 2026

2 commits

a866b688 翻译接口 Browse Code »

tangwang
2026-01-26 14:58:06 +0800
3cd09b3b 翻译接口改为调用qwen-mt-flash ... Browse Code »
```
文档： 翻译模块说明.md
```
tangwang
2026-01-26 13:31:41 +0800

24 Jan, 2026

1 commit

001b4889 1. docs ... Browse Code »
```
2. 设置sku_filter_dimension参数的默认值为option1
```
tangwang
2026-01-24 15:05:54 +0800

09 Jan, 2026

3 commits

b1bafbbc blog Browse Code »

tangwang
2026-01-09 11:40:49 +0800
cd9191b9 blogs Browse Code »

tangwang
2026-01-09 11:38:46 +0800
323a720b docs Browse Code »

tangwang
2026-01-09 11:26:27 +0800

07 Jan, 2026

1 commit

fbc7f114 docs Browse Code »

tangwang
2026-01-07 17:21:14 +0800

06 Jan, 2026

5 commits

80f87e57 多语言索引修改对应的索引创建、数据灌入脚本、文档同步修改 Browse Code »

tangwang
2026-01-06 22:40:42 +0800
430ffe48 多语言索引调整 Browse Code »

tangwang
2026-01-06 20:20:09 +0800
2739b281 多语言索引调整 Browse Code »

tangwang
2026-01-06 19:59:36 +0800

d7d48f52 改动（mapping + 灌入结构） ... Browse Code »

mappings/search_products.json：把原来的 title_zh/title_en/brief_zh/... 改成 按语言 key 的对象结构（ /products/_doc/1 { "title": {"en":...} } ）
同时在这些字段下 预置了全部 analyzer 语言:
arabic, armenian, basque, brazilian, bulgarian, catalan, chinese, cjk, czech, danish, dutch, english, finnish, french, galician, german, greek, hindi, hungarian, indonesian, italian, norwegian, persian, portuguese, romanian, russian, spanish, swedish, turkish, thai

实现为 type: object + properties，同时满足“按语言灌入”和“按语言 analyzer”。
索引灌入（全量/增量/transformer）已同步改完
indexer/document_transformer.py：输出从 title_zh/title_en/... 改为：
title: {<primary_lang>: 原文, en?: 翻译, zh?: 翻译}
brief/description/vendor 同理
category_path/category_name_text 也改为语言对象（避免查询侧继续依赖旧字段）
indexer/incremental_service.py：embedding 取值从 title_en/title_zh 改为从 title 对象里优先取 en，否则取 zh，否则取任一可用语言。
查询侧与配置、API/文档已同步
search/es_query_builder.py：查询字段统一改成点路径：title.zh / title.en / vendor.zh / vendor.zh.keyword / category_name_text.zh 等。
config/config.yaml：field boosts / indexes 里的字段名同步为新点路径。
API & formatter：
api/result_formatter.py 已支持新结构（并保留对旧 *_zh/_en 的兼容兜底）。
api/models.py、相关 docs/examples 里的 vendor_zh.keyword 等已更新为 vendor.zh.keyword。
文档/脚本：docs/、README.md、scripts/ 里所有旧字段名引用已批量替换为新结构。

2026-01-06 19:42:20 +0800

62b7972c docs Browse Code »

tangwang
2026-01-06 10:28:39 +0800

04 Jan, 2026

1 commit

472cca0c doc Browse Code »

tangwang
2026-01-04 18:15:10 +0800

31 Dec, 2025

4 commits

72e7256a 清理文件 Browse Code »

tangwang
2025-12-31 17:27:12 +0800
f1505d1b up Browse Code »

tangwang
2025-12-31 17:06:49 +0800
dd48ee67 up Browse Code »

tangwang
2025-12-31 17:01:09 +0800
768ad710 MySQL到ES字段映射说明-业务版.md Browse Code »

tangwang
2025-12-31 16:58:16 +0800

29 Dec, 2025

2 commits

74cca190 cnclip Browse Code »

tangwang
2025-12-29 23:22:14 +0800
40f1e391 cnclip Browse Code »

tangwang
2025-12-29 23:04:02 +0800

27 Dec, 2025

2 commits

ce8fdd9f 为前端搜索输入框的自动补全（suggest）功能添加 tenant_id 参数，并实现配置化映射。 ... Browse Code »

修改内容
1. 在 tenant_facets_config.js 中添加映射配置
添加 TENANT_ID_MAPPING 配置对象，包含映射关系：
170 → 170
171 → 170
162 → 0
添加 getMappedTenantId() 函数，用于获取映射后的 tenant_id

2025-12-27 15:13:29 +0800

e4a39cc8 索引隔离。不同的tenant_id用不同的索引 Browse Code »

tangwang
2025-12-27 15:02:31 +0800

26 Dec, 2025

3 commits

775db2b0 xinfer Browse Code »

tangwang
2025-12-26 23:29:24 +0800
15eae5ee add image_embedding_512 Browse Code »

tangwang
2025-12-26 16:49:32 +0800
b401ef94 third-party/xinference/ Browse Code »

tangwang
2025-12-26 16:48:37 +0800

25 Dec, 2025

3 commits

11a66fa4 feat: add clip-as-service as git submodule (pinned to commit 03410570) ... Browse Code »
```
- Added jina-ai/clip-as-service as a git submodule
- Pinned to commit 03410570 (version 0.8.4)
- Will be used for CLIP image/text embedding services
```
tangwang
2025-12-25 18:35:50 +0800

d8ca3b13 修复分面结果各个选项结果数和实际不一致的问题（因为统计的是子文档个数） ... Browse Code »

问题：nested 聚合统计的是嵌套文档（specifications 条目）数量，而不是产品（父文档）数量。
修复内容：
在 es_query_builder.py 中：为 specifications 分面的聚合添加了 reverse_nested 子聚合，用于统计产品数量：
   "aggs": {       "product_count": {           "reverse_nested": {}       }   }
在 result_formatter.py 中：更新读取逻辑，从 product_count.doc_count 读取产品数量，而不是直接使用 doc_count。
修复效果：
之前：分面显示 62（统计了 62 个嵌套文档/规格条目）
现在：分面显示实际的产品数量（例如 2），与搜索结果数量一致

2025-12-25 13:12:34 +0800

bad3b18b fix facet for 172 Browse Code »

tangwang
2025-12-25 08:51:04 +0800

22 Dec, 2025

5 commits

0a3764c4 优化embedding模型加载 Browse Code »

tangwang
2025-12-22 14:38:13 +0800
7bfb9946 向量化模块 Browse Code »

tangwang
2025-12-22 14:25:15 +0800
9c712e64 增加索引字段qanchors keywords Browse Code »

tangwang
2025-12-22 12:32:06 +0800
3438fe74 clean Browse Code »

tangwang
2025-12-22 10:16:51 +0800
7ac1534b disjunctive 修改默认值为false，文档完善 Browse Code »

tangwang
2025-12-22 10:15:19 +0800

20 Dec, 2025

2 commits

70a318c6 fix bug Browse Code »

tangwang
2025-12-20 14:56:47 +0800
70dab99f add logs Browse Code »

tangwang
2025-12-20 14:50:13 +0800

19 Dec, 2025

6 commits

92d5eb07 fix：前端直接显示了类目ID。因为类目表中不存在这个类目ID，因此找不到类目名称，因此直接用了ID。 Browse Code »

tangwang
2025-12-19 18:21:50 +0800
b2e50710 BgeEncoder.encode(...) 返回：np.ndarray(dtype=object)，每个元素要么是 np.ndarray，要么是 None。 ... Browse Code »
```
cache/service 任一环节返回坏 embedding（含 NaN/Inf/空/非 ndarray）都会 视为 None，并且坏 cache 会被自动删除。
```
tangwang
2025-12-19 18:05:59 +0800
5c2b70a2 search_products.json Browse Code »

tangwang
2025-12-19 11:19:58 +0800

f62a541c 将 uvicorn 的默认线程池调整为 48： ... Browse Code »

1. api/indexer_app.py（索引服务，端口 6004）
在 startup_event() 中添加线程池大小配置
使用 anyio.to_thread.current_default_thread_limiter() 设置线程池大小为 48
添加日志记录，便于确认配置是否生效
2. api/app.py（搜索服务，端口 6002）
在 startup_event() 中添加线程池大小配置
同样设置为 48 个线程
添加日志记录

2025-12-19 09:06:32 +0800

791a7909 支持并发的增量和全量请求: ... Browse Code »

1. 添加 asyncio 导入
在文件顶部添加 import asyncio，用于在线程池中执行同步阻塞操作
2. 修改 /indexer/reindex 路由（全量索引）
使用 loop.run_in_executor() 将 service.bulk_index() 放到线程池执行
避免阻塞事件循环，允许其他请求并行处理
3. 修改 /indexer/index 路由（增量索引）
使用 loop.run_in_executor() 将 service.index_spus_to_es() 放到线程池执行
确保全量索引和增量索引可以并行执行
工作原理
线程池执行：同步阻塞操作（如数据库查询、ES 写入）在线程池中执行，不阻塞事件循环
并发支持：
全量索引占用一个线程
增量索引可同时使用其他线程
多个增量请求可并行处理
资源管理：
数据库连接池（pool_size=10, max_overflow=20）可支持并发请求
uvicorn 默认线程池（40 个线程）可处理多个并发请求

2025-12-19 09:04:19 +0800

d6606d7a 清理旧代码，具体如下： ... Browse Code »

1. 删除 IndexingPipeline 类
文件：indexer/bulk_indexer.py
删除：IndexingPipeline 类（第201-259行）
删除：不再需要的 load_mapping 导入
2. 删除 main.py 中的旧代码
删除：cmd_ingest() 函数（整个函数）
删除：ingest 子命令定义
删除：main() 中对 ingest 命令的处理
删除：不再需要的 pandas 导入
更新：文档字符串，移除 ingest 命令说明
3. 删除旧的数据导入脚本
删除：data/customer1/ingest_customer1.py（依赖已废弃的 DataTransformer 和 IndexingPipeline）

2025-12-19 08:57:36 +0800