tangwang / SearchEngine

18 Dec, 2025

6 commits

3652f85f trans for index Browse Code »

tangwang
2025-12-18 18:06:24 +0800

bb9c626c 搜索服务（6002）不再初始化/挂载 /indexer/* 路由，避免索引阻塞线上搜索 ... Browse Code »

新增 api/indexer_app.py，在独立进程（默认 6004）中初始化 ES + DB + 索引服务，并复用 api/routes/indexer.py 一套路由
新增 api/service_registry.py，通过注册表向索引路由注入 ES 客户端和索引服务，消除重复代码与循环依赖
main.py 增加 serve-indexer 子命令；scripts/start.sh / stop.sh / start_backend.sh / start_indexer.sh 支持独立管理索引进程
文档中所有索引相关示例由 6002/indexer/* 统一调整为 6004/indexer/*

2025-12-18 17:40:44 +0800

3ec5bfe6 1. get_translation_needs这种函数可以去除。逻辑直接写在parse函数中。 ... Browse Code »

2. translate_multi 还需要提供一种调用方法，异步的，但是 可以等待结果的。
3. 如果detected_lang不是en也不是zh，这时候， 我们调用translate_multi  是需要等待结果返回的（因为是zh 或者 en 都有一个索引字段可以查，因此 本次可以不用结果，直接去走搜索，但是如果两者都不是，只能等待翻译结果。）
4. parse函数 这里可能发起一个异步的调用，下面的encode也要做成异步的，这样 encode和翻译两个异步任务的时间可以重叠，需要等待所有结果都返回。

更改
1. 去除 get_translation_needs 函数，逻辑内联到 parse 函数
在 parse 函数中（第230-234行）直接实现了 get_translation_needs 的逻辑
2. 添加 translate_multi_async 方法，支持异步等待结果
在 translator.py 中添加了 translate_multi_async 方法（第412-459行）
该方法返回字典，值为翻译字符串（缓存命中）或 Future 对象（需要等待）
3. 根据 detected_lang 决定是否需要等待翻译结果
如果 detected_lang 不是 'en' 也不是 'zh'，使用 translate_multi_async 并等待结果（第245-261行）
如果是 'en' 或 'zh'，使用 translate_multi 的异步模式，不等待结果（第262-273行）
4. 将 encode 和翻译改为异步并行执行
encode 使用 ThreadPoolExecutor 异步执行（第315-330行）
翻译和编码任务并行执行，使用 as_completed 等待所有结果（第332-375行）

2025-12-18 15:00:18 +0800

453992a8 需求： ... Browse Code »

索引的两项功能：
1. 多语言。 店铺配置的语言如果不等于zh，那么要调用翻译 获得中文翻译结果，同时 如果不等于en，要翻译en的结果。
要缓存到redis。 先查询缓存，没命中缓存再调用翻译，然后存入redis缓存起来。
这些逻辑应该是 @query/translator.py 内部的，不需要调用的地方关心。但是现在是  DictCache，直接改掉，改为redis的缓存

2. 填充 标题的向量化字段。如果该店铺的标题向量化打开，那么应该请求向量化模型根据英文的title得到embedding。使用 BgeEncoder.

以上两个模块的缓存，过期时间都是 最近多长时间内没有访问过。

feat:
1. 更新 REDIS_CONFIG 配置
在 config/env_config.py 中添加了用户提供的配置项（snapshot_db, translation_cache_expire_days, translation_cache_prefix 等）
2. 修改 query/translator.py
将 DictCache 改为 Redis 缓存
实现了 translate_for_indexing 方法，自动处理多语言翻译：
如果店铺语言不等于 zh，自动翻译成 zh
如果店铺语言不等于 en，自动翻译成 en
翻译逻辑封装在 translator.py 内部，调用方无需关心
3. 修改 embeddings/text_encoder.py
在 BgeEncoder 中添加了 Redis 缓存
实现了滑动过期策略（每次访问时重置过期时间）
缓存逻辑参考了提供的 CacheManager 对象
4. 修改 indexer/document_transformer.py
添加了 encoder 和 enable_title_embedding 参数
实现了 _fill_title_embedding 方法，使用英文标题（title_en）生成 embedding
更新了 _fill_text_fields 方法，使用新的 translate_for_indexing 方法
5. 更新 indexer/indexing_utils.py
更新了 create_document_transformer 函数，支持新的 encoder 和 enable_title_embedding 参数
如果启用标题向量化且未提供 encoder，会自动初始化 BgeEncoder

2025-12-18 12:16:06 +0800

b735cced scripts/amazon_xlsx_to_shoplazza_xlsx.py ... Browse Code »

1. 添加了两个开关参数
--keep-spu-if-parent-missing：保留父ASIN不在变体列表中的SPU（默认：丢弃整个SPU）
--fix-sku-if-title-mismatch：修正标题不一致的SKU而不是丢弃（默认：丢弃标题不一致的SKU）
2. 实现了相关逻辑
父ASIN缺失处理：
默认：当父ASIN不在变体列表中时，打印警告并丢弃整个SPU
使用 --keep-spu-if-parent-missing：保留SPU，使用第一个变体作为主商品
标题不一致处理：
默认：当变体标题与主商品不一致时，打印日志并丢弃该SKU
使用 --fix-sku-if-title-mismatch：修正变体标题为主商品标题

2025-12-18 08:50:29 +0800

148ab60d docs Browse Code »

tangwang
2025-12-18 08:45:35 +0800

17 Dec, 2025

9 commits

58beae7e fix bug Browse Code »

tangwang
2025-12-17 23:48:52 +0800
8b1425bb amazon data Browse Code »

tangwang
2025-12-17 23:44:03 +0800
6087131a doc Browse Code »

tangwang
2025-12-17 23:00:15 +0800
809d1ed0 amazon asins Browse Code »

tangwang
2025-12-17 22:49:02 +0800
a9608cb3 1. 第一列“商品ID”这一列进行填充，从1开始增 ... Browse Code »
```
2.  如果变体的标题跟主商品不一致，请打印一条错误日志，并且忽略这一条数据
```
tangwang
2025-12-17 17:11:55 +0800
50170c5a 导入成功。有部分失败（1/4）原因有： ... Browse Code »
```
1. 跟主商品标题不一致
2. 商品图片信息缺失
3. Options是无效的
```
tangwang
2025-12-17 16:33:18 +0800
80519ec6 emazon -> shoplazza Browse Code »

tangwang
2025-12-17 16:05:54 +0800
cd29428b 亚马逊数据导入店匠店铺 - 数据处理 Browse Code »

tangwang
2025-12-17 14:48:26 +0800
f3c11fef 亚马逊格式数据导入店匠 Browse Code »

tangwang
2025-12-17 14:28:06 +0800

16 Dec, 2025

6 commits

19d2d90f 卖家精灵数据 Browse Code »

tangwang
2025-12-16 22:30:58 +0800
c44a8f5f 卖家精灵query和asins数据 Browse Code »

tangwang
2025-12-16 22:28:46 +0800
98a27c9c keywords Browse Code »

tangwang
2025-12-16 20:17:07 +0800
ad248a90 1. facet 前端调试页面：为类别设定层级下钻模式 ... Browse Code »
```
2. 搜索词挖掘
```
tangwang
2025-12-16 18:29:42 +0800
eb835c2a amazon keywords Browse Code »

tangwang
2025-12-16 16:12:04 +0800
adc2584b data Browse Code »

tangwang
2025-12-16 11:30:54 +0800

09 Dec, 2025

6 commits

a2fd1661 前端支持sugg，对接到另外单独的sugg服务 curl "http://localhost:5003/suggest?query=测试&lang=zh&limit=10" Browse Code »

tangwang
2025-12-09 15:25:34 +0800
b50d11cd quries优化 Browse Code »

tangwang
2025-12-09 12:02:39 +0800
f5e7cf00 add data Browse Code »

tangwang
2025-12-09 11:52:08 +0800
7af56df3 文档优化 Browse Code »

tangwang
2025-12-09 11:41:45 +0800

c797ba2b 1. 增量索引接口，增加删除操作后，响应接口的调整 ... Browse Code »

因为请求改成了两个list，

响应也是对应的两个list，一个是spu_ids对应的响应的list，每个id对应的有处理结果 indexed、deleted、failed，如果是failed会带msg。

delete_spu_ids也是对应一个list，对应的结果又deleted / failed。

2. API文档对应修改

2025-12-09 11:24:06 +0800

f54b3854 pu_ids参数。目前总共3个参数： ... Browse Code »

tenant_id
spu_ids
delete_spu_ids

spu_ids里面的，如果is_delete字段为1，我这边也要做删除。
delete_spu_ids的 直接删除
为您的变更输入提交说明。以 '#' 开始的行将被忽略，而一个空的提交

2025-12-09 11:03:47 +0800

08 Dec, 2025

8 commits

737d4e6a fake quries Browse Code »

tangwang
2025-12-08 22:45:14 +0800
10020656 服装领域query构造 Browse Code »

tangwang
2025-12-08 22:24:21 +0800
8a5a3a3d indexer doc Browse Code »

tangwang
2025-12-08 12:18:55 +0800
775ef237 docs: 更新文档目录，修正索引接口章节名称 Browse Code »

tangwang
2025-12-08 12:16:39 +0800

c55c5e47 feat: 新增增量索引接口并重构索引接口命名 ... Browse Code »

新增功能：
- 新增 POST /indexer/index 增量索引接口，支持按SPU ID列表进行增量索引
- 新增 indexer/indexer_logger.py 索引日志模块，统一记录全量和增量索引日志到 logs/indexer.log（JSON格式）
- IncrementalIndexerService 新增 index_spus_to_es 方法，实现增量索引功能

接口重命名：
- POST /indexer/bulk -> POST /indexer/reindex（全量重建索引）
- POST /indexer/incremental -> POST /indexer/index（增量索引）
- POST /indexer/spus -> POST /indexer/documents（查询文档）

日志系统：
- 全量和增量索引操作统一记录到 logs/indexer.log
- 记录请求参数、处理过程、ES写入结果、成功/失败统计等关键信息
- 支持按索引类型、租户ID、SPU ID等维度查询日志

文档更新：
- 更新接口文档，包含新的接口命名和增量索引接口说明
- 添加日志查询示例（grep和jq两种方式）

2025-12-08 12:14:38 +0800

a5a6bab8 多语言查询优化 Browse Code »

tangwang
2025-12-08 11:47:58 +0800
11237cf2 搜索API对接指南.md Browse Code »

tangwang
2025-12-08 10:06:43 +0800

3c1f8031 api/routes/indexer.py ... Browse Code »

- 新增批量索引接口: POST /indexer/bulk - 全量索引功能
  - SPU接口改进: POST /indexer/spus - 支持批量获取SPU文档（最多100个）

新增 全量索引服务
indexer/bulk_indexing_service.py

docs/搜索API对接指南.md
  - 新增索引接口文档: 详细的批量索引和SPU索引接口说明
  - 请求示例: 提供完整的curl命令示例

2025-12-08 09:41:34 +0800

07 Dec, 2025

2 commits

0064e946 feat: 增量索引服务、租户配置和翻译功能集成 ... Browse Code »

主要功能：
1. 增量数据获取服务
   - 新增 IncrementalIndexerService 提供单个SPU数据获取
   - 新增 /indexer/spu/{spu_id} API接口
   - 服务启动时预加载分类映射等公共数据
   - 提取 SPUDocumentTransformer 统一全量和增量转换逻辑
   - 支持根据租户配置进行语言处理和翻译

3. 租户配置系统
   - 租户配置合并到统一配置文件 config/config.yaml
   - 支持每个租户独立配置主语言和翻译选项
   - 租户162配置为翻译关闭（用于测试）

4. 翻译功能集成
   - 翻译提示词作为DeepL API的context参数传递
   - 支持中英文提示词配置
   - 索引场景：同步翻译，使用缓存
   - 查询场景：异步翻译，立即返回

测试：
- 新增 indexer/test_indexing.py 和 query/test_translation.py
- 验证租户162翻译关闭功能
- 验证全量和增量索引功能

2025-12-07 11:11:12 +0800

6e0e310c 1. Translator 类增强 ... Browse Code »

添加 ThreadPoolExecutor 线程池用于异步翻译
修改 translate_multi() 方法，支持 async_mode 参数（默认 True）
添加 _get_cached_translation() 方法，快速获取缓存
添加 _translate_async() 方法，异步执行翻译任务
2. 异步翻译逻辑
命中缓存：立即返回缓存结果
未命中缓存：
异步启动翻译任务（不阻塞）
返回 None（本次查询不使用）
翻译完成后自动存入缓存
下次查询时可直接使用缓存结果
3. QueryParser 更新
调用 translate_multi() 时使用 async_mode=True
过滤掉 None 值（未完成的翻译）
优化日志输出，区分缓存命中和异步翻译
工作流程
首次查询：未命中缓存 → 异步翻译 → 返回空翻译 → 不阻塞
翻译完成：结果存入缓存
后续查询：命中缓存 → 立即返回 → 快速响应

2025-12-07 09:14:47 +0800

05 Dec, 2025

3 commits

7bc756c5 优化 ES 查询构建 ... Browse Code »

将 must 子句改为 should 子句的多查询策略
实现以下查询类型：
base_query：主查询，使用 AND 操作符和 75% minimum_should_match
翻译查询：跨语言查询，boost=0.4
短语查询：短查询的精确短语匹配
关键词查询：基于提取名词的查询，boost=0.1
添加 _get_match_fields() 方法，支持中英文字段动态映射
4. 关键改进点
minimum_should_match 从 67% 提升到 75%
添加 operator: "AND" 确保所有词都匹配
使用 should 子句实现多策略融合
支持短语查询和关键词查询的智能触发

2025-12-05 22:54:06 +0800

9a9b9ec5 1. facet disjunctive ... Browse Code »
```
2. queries
```
tangwang
2025-12-05 19:39:47 +0800
8c503501 补充基于阿里云的embedding Browse Code »

tangwang
2025-12-05 16:58:11 +0800