tangwang / SearchEngine

17 Dec, 2025

9 commits

58beae7e fix bug Browse Code »

tangwang
2025-12-17 23:48:52 +0800
8b1425bb amazon data Browse Code »

tangwang
2025-12-17 23:44:03 +0800
6087131a doc Browse Code »

tangwang
2025-12-17 23:00:15 +0800
809d1ed0 amazon asins Browse Code »

tangwang
2025-12-17 22:49:02 +0800
a9608cb3 1. 第一列“商品ID”这一列进行填充，从1开始增 ... Browse Code »
```
2.  如果变体的标题跟主商品不一致，请打印一条错误日志，并且忽略这一条数据
```
tangwang
2025-12-17 17:11:55 +0800
50170c5a 导入成功。有部分失败（1/4）原因有： ... Browse Code »
```
1. 跟主商品标题不一致
2. 商品图片信息缺失
3. Options是无效的
```
tangwang
2025-12-17 16:33:18 +0800
80519ec6 emazon -> shoplazza Browse Code »

tangwang
2025-12-17 16:05:54 +0800
cd29428b 亚马逊数据导入店匠店铺 - 数据处理 Browse Code »

tangwang
2025-12-17 14:48:26 +0800
f3c11fef 亚马逊格式数据导入店匠 Browse Code »

tangwang
2025-12-17 14:28:06 +0800

16 Dec, 2025

6 commits

19d2d90f 卖家精灵数据 Browse Code »

tangwang
2025-12-16 22:30:58 +0800
c44a8f5f 卖家精灵query和asins数据 Browse Code »

tangwang
2025-12-16 22:28:46 +0800
98a27c9c keywords Browse Code »

tangwang
2025-12-16 20:17:07 +0800
ad248a90 1. facet 前端调试页面：为类别设定层级下钻模式 ... Browse Code »
```
2. 搜索词挖掘
```
tangwang
2025-12-16 18:29:42 +0800
eb835c2a amazon keywords Browse Code »

tangwang
2025-12-16 16:12:04 +0800
adc2584b data Browse Code »

tangwang
2025-12-16 11:30:54 +0800

09 Dec, 2025

6 commits

a2fd1661 前端支持sugg，对接到另外单独的sugg服务 curl "http://localhost:5003/suggest?query=测试&lang=zh&limit=10" Browse Code »

tangwang
2025-12-09 15:25:34 +0800
b50d11cd quries优化 Browse Code »

tangwang
2025-12-09 12:02:39 +0800
f5e7cf00 add data Browse Code »

tangwang
2025-12-09 11:52:08 +0800
7af56df3 文档优化 Browse Code »

tangwang
2025-12-09 11:41:45 +0800

c797ba2b 1. 增量索引接口，增加删除操作后，响应接口的调整 ... Browse Code »

因为请求改成了两个list，

响应也是对应的两个list，一个是spu_ids对应的响应的list，每个id对应的有处理结果 indexed、deleted、failed，如果是failed会带msg。

delete_spu_ids也是对应一个list，对应的结果又deleted / failed。

2. API文档对应修改

2025-12-09 11:24:06 +0800

f54b3854 pu_ids参数。目前总共3个参数： ... Browse Code »

tenant_id
spu_ids
delete_spu_ids

spu_ids里面的，如果is_delete字段为1，我这边也要做删除。
delete_spu_ids的 直接删除
为您的变更输入提交说明。以 '#' 开始的行将被忽略，而一个空的提交

2025-12-09 11:03:47 +0800

08 Dec, 2025

8 commits

737d4e6a fake quries Browse Code »

tangwang
2025-12-08 22:45:14 +0800
10020656 服装领域query构造 Browse Code »

tangwang
2025-12-08 22:24:21 +0800
8a5a3a3d indexer doc Browse Code »

tangwang
2025-12-08 12:18:55 +0800
775ef237 docs: 更新文档目录，修正索引接口章节名称 Browse Code »

tangwang
2025-12-08 12:16:39 +0800

c55c5e47 feat: 新增增量索引接口并重构索引接口命名 ... Browse Code »

新增功能：
- 新增 POST /indexer/index 增量索引接口，支持按SPU ID列表进行增量索引
- 新增 indexer/indexer_logger.py 索引日志模块，统一记录全量和增量索引日志到 logs/indexer.log（JSON格式）
- IncrementalIndexerService 新增 index_spus_to_es 方法，实现增量索引功能

接口重命名：
- POST /indexer/bulk -> POST /indexer/reindex（全量重建索引）
- POST /indexer/incremental -> POST /indexer/index（增量索引）
- POST /indexer/spus -> POST /indexer/documents（查询文档）

日志系统：
- 全量和增量索引操作统一记录到 logs/indexer.log
- 记录请求参数、处理过程、ES写入结果、成功/失败统计等关键信息
- 支持按索引类型、租户ID、SPU ID等维度查询日志

文档更新：
- 更新接口文档，包含新的接口命名和增量索引接口说明
- 添加日志查询示例（grep和jq两种方式）

2025-12-08 12:14:38 +0800

a5a6bab8 多语言查询优化 Browse Code »

tangwang
2025-12-08 11:47:58 +0800
11237cf2 搜索API对接指南.md Browse Code »

tangwang
2025-12-08 10:06:43 +0800

3c1f8031 api/routes/indexer.py ... Browse Code »

- 新增批量索引接口: POST /indexer/bulk - 全量索引功能
  - SPU接口改进: POST /indexer/spus - 支持批量获取SPU文档（最多100个）

新增 全量索引服务
indexer/bulk_indexing_service.py

docs/搜索API对接指南.md
  - 新增索引接口文档: 详细的批量索引和SPU索引接口说明
  - 请求示例: 提供完整的curl命令示例

2025-12-08 09:41:34 +0800

07 Dec, 2025

2 commits

0064e946 feat: 增量索引服务、租户配置和翻译功能集成 ... Browse Code »

主要功能：
1. 增量数据获取服务
   - 新增 IncrementalIndexerService 提供单个SPU数据获取
   - 新增 /indexer/spu/{spu_id} API接口
   - 服务启动时预加载分类映射等公共数据
   - 提取 SPUDocumentTransformer 统一全量和增量转换逻辑
   - 支持根据租户配置进行语言处理和翻译

3. 租户配置系统
   - 租户配置合并到统一配置文件 config/config.yaml
   - 支持每个租户独立配置主语言和翻译选项
   - 租户162配置为翻译关闭（用于测试）

4. 翻译功能集成
   - 翻译提示词作为DeepL API的context参数传递
   - 支持中英文提示词配置
   - 索引场景：同步翻译，使用缓存
   - 查询场景：异步翻译，立即返回

测试：
- 新增 indexer/test_indexing.py 和 query/test_translation.py
- 验证租户162翻译关闭功能
- 验证全量和增量索引功能

2025-12-07 11:11:12 +0800

6e0e310c 1. Translator 类增强 ... Browse Code »

添加 ThreadPoolExecutor 线程池用于异步翻译
修改 translate_multi() 方法，支持 async_mode 参数（默认 True）
添加 _get_cached_translation() 方法，快速获取缓存
添加 _translate_async() 方法，异步执行翻译任务
2. 异步翻译逻辑
命中缓存：立即返回缓存结果
未命中缓存：
异步启动翻译任务（不阻塞）
返回 None（本次查询不使用）
翻译完成后自动存入缓存
下次查询时可直接使用缓存结果
3. QueryParser 更新
调用 translate_multi() 时使用 async_mode=True
过滤掉 None 值（未完成的翻译）
优化日志输出，区分缓存命中和异步翻译
工作流程
首次查询：未命中缓存 → 异步翻译 → 返回空翻译 → 不阻塞
翻译完成：结果存入缓存
后续查询：命中缓存 → 立即返回 → 快速响应

2025-12-07 09:14:47 +0800

05 Dec, 2025

4 commits

7bc756c5 优化 ES 查询构建 ... Browse Code »

将 must 子句改为 should 子句的多查询策略
实现以下查询类型：
base_query：主查询，使用 AND 操作符和 75% minimum_should_match
翻译查询：跨语言查询，boost=0.4
短语查询：短查询的精确短语匹配
关键词查询：基于提取名词的查询，boost=0.1
添加 _get_match_fields() 方法，支持中英文字段动态映射
4. 关键改进点
minimum_should_match 从 67% 提升到 75%
添加 operator: "AND" 确保所有词都匹配
使用 should 子句实现多策略融合
支持短语查询和关键词查询的智能触发

2025-12-05 22:54:06 +0800

9a9b9ec5 1. facet disjunctive ... Browse Code »
```
2. queries
```
tangwang
2025-12-05 19:39:47 +0800
8c503501 补充基于阿里云的embedding Browse Code »

tangwang
2025-12-05 16:58:11 +0800
8f6f14da test data prepare: ... Browse Code »
```
quriers
products
```
tangwang
2025-12-05 11:12:04 +0800

04 Dec, 2025

3 commits

6d524cb4 docs优化 Browse Code »

tangwang
2025-12-04 16:02:55 +0800

c581becd feat: 实现 Multi-Select Faceting 和 Selected 状态标记 ... Browse Code »

核心功能：
- 添加 multi_select 字段到 FacetConfig（默认为 true）
- 实现 post_filter 支持 disjunctive faceting
- 后端自动标记 facet 值的 selected 状态
- 支持 specifications 和普通字段的 multi-select

技术改进：
- ESQueryBuilder: 分离 conjunctive/disjunctive filters
- ResultFormatter: 根据 current_filters 标记 selected
- Searcher: 传递 facet_configs 给 query builder

文档更新：
- 添加 multi_select_faceting.md 详细文档
- 更新 API 对接指南，说明新功能
- 添加测试脚本 test_multi_select_facet.py

业界标准：
- 遵循 Elasticsearch/Algolia/Amazon 的最佳实践
- 提供探索式搜索体验
- 前后端职责清晰分离

2025-12-04 15:29:52 +0800

b8317ce4 docs Browse Code »

tangwang
2025-12-04 14:41:38 +0800

03 Dec, 2025

2 commits

13320ac6 分面接口修改： ... Browse Code »

{
  "facets": [
    {
      "field": "category1_name",
      "size": 15,
      "type": "terms"
    },
    "specifications.color",
    "specifications.size"
  ]
}

{
  "facets": [
    {"field": "category1_name", "size": 15, "type": "terms"},
    {"field": "specifications.color", "size": 10, "type": "terms"},
    {"field": "specifications.size", "size": 10, "type": "terms"}
  ]
}

之前是上面的接口形式，主要是考虑 属性的分面， 因为 款式都是有限的 不需要设定 "size": 10, "type": "terms" 这些参数。

但是从接口设计层面，最好按下面这样，这样的话 specifications.color 和 category1_name 的组装格式 完全一样。前端不需要感知 属性分面 和 类别等其他字段分面的差异。

2025-12-03 21:20:50 +0800

e7ad2b4a 测试页面分页配置 Browse Code »

tangwang
2025-12-03 11:42:35 +0800