tangwang / SearchEngine

09 Dec, 2025

5 commits

b50d11cd quries优化 Browse Code »

tangwang
2025-12-09 12:02:39 +0800
f5e7cf00 add data Browse Code »

tangwang
2025-12-09 11:52:08 +0800
7af56df3 文档优化 Browse Code »

tangwang
2025-12-09 11:41:45 +0800

c797ba2b 1. 增量索引接口，增加删除操作后，响应接口的调整 ... Browse Code »

因为请求改成了两个list，

响应也是对应的两个list，一个是spu_ids对应的响应的list，每个id对应的有处理结果 indexed、deleted、failed，如果是failed会带msg。

delete_spu_ids也是对应一个list，对应的结果又deleted / failed。

2. API文档对应修改

2025-12-09 11:24:06 +0800

f54b3854 pu_ids参数。目前总共3个参数： ... Browse Code »

tenant_id
spu_ids
delete_spu_ids

spu_ids里面的，如果is_delete字段为1，我这边也要做删除。
delete_spu_ids的 直接删除
为您的变更输入提交说明。以 '#' 开始的行将被忽略，而一个空的提交

2025-12-09 11:03:47 +0800

08 Dec, 2025

8 commits

737d4e6a fake quries Browse Code »

tangwang
2025-12-08 22:45:14 +0800
10020656 服装领域query构造 Browse Code »

tangwang
2025-12-08 22:24:21 +0800
8a5a3a3d indexer doc Browse Code »

tangwang
2025-12-08 12:18:55 +0800
775ef237 docs: 更新文档目录，修正索引接口章节名称 Browse Code »

tangwang
2025-12-08 12:16:39 +0800

c55c5e47 feat: 新增增量索引接口并重构索引接口命名 ... Browse Code »

新增功能：
- 新增 POST /indexer/index 增量索引接口，支持按SPU ID列表进行增量索引
- 新增 indexer/indexer_logger.py 索引日志模块，统一记录全量和增量索引日志到 logs/indexer.log（JSON格式）
- IncrementalIndexerService 新增 index_spus_to_es 方法，实现增量索引功能

接口重命名：
- POST /indexer/bulk -> POST /indexer/reindex（全量重建索引）
- POST /indexer/incremental -> POST /indexer/index（增量索引）
- POST /indexer/spus -> POST /indexer/documents（查询文档）

日志系统：
- 全量和增量索引操作统一记录到 logs/indexer.log
- 记录请求参数、处理过程、ES写入结果、成功/失败统计等关键信息
- 支持按索引类型、租户ID、SPU ID等维度查询日志

文档更新：
- 更新接口文档，包含新的接口命名和增量索引接口说明
- 添加日志查询示例（grep和jq两种方式）

2025-12-08 12:14:38 +0800

a5a6bab8 多语言查询优化 Browse Code »

tangwang
2025-12-08 11:47:58 +0800
11237cf2 搜索API对接指南.md Browse Code »

tangwang
2025-12-08 10:06:43 +0800

3c1f8031 api/routes/indexer.py ... Browse Code »

- 新增批量索引接口: POST /indexer/bulk - 全量索引功能
  - SPU接口改进: POST /indexer/spus - 支持批量获取SPU文档（最多100个）

新增 全量索引服务
indexer/bulk_indexing_service.py

docs/搜索API对接指南.md
  - 新增索引接口文档: 详细的批量索引和SPU索引接口说明
  - 请求示例: 提供完整的curl命令示例

2025-12-08 09:41:34 +0800

07 Dec, 2025

2 commits

0064e946 feat: 增量索引服务、租户配置和翻译功能集成 ... Browse Code »

主要功能：
1. 增量数据获取服务
   - 新增 IncrementalIndexerService 提供单个SPU数据获取
   - 新增 /indexer/spu/{spu_id} API接口
   - 服务启动时预加载分类映射等公共数据
   - 提取 SPUDocumentTransformer 统一全量和增量转换逻辑
   - 支持根据租户配置进行语言处理和翻译

3. 租户配置系统
   - 租户配置合并到统一配置文件 config/config.yaml
   - 支持每个租户独立配置主语言和翻译选项
   - 租户162配置为翻译关闭（用于测试）

4. 翻译功能集成
   - 翻译提示词作为DeepL API的context参数传递
   - 支持中英文提示词配置
   - 索引场景：同步翻译，使用缓存
   - 查询场景：异步翻译，立即返回

测试：
- 新增 indexer/test_indexing.py 和 query/test_translation.py
- 验证租户162翻译关闭功能
- 验证全量和增量索引功能

2025-12-07 11:11:12 +0800

6e0e310c 1. Translator 类增强 ... Browse Code »

添加 ThreadPoolExecutor 线程池用于异步翻译
修改 translate_multi() 方法，支持 async_mode 参数（默认 True）
添加 _get_cached_translation() 方法，快速获取缓存
添加 _translate_async() 方法，异步执行翻译任务
2. 异步翻译逻辑
命中缓存：立即返回缓存结果
未命中缓存：
异步启动翻译任务（不阻塞）
返回 None（本次查询不使用）
翻译完成后自动存入缓存
下次查询时可直接使用缓存结果
3. QueryParser 更新
调用 translate_multi() 时使用 async_mode=True
过滤掉 None 值（未完成的翻译）
优化日志输出，区分缓存命中和异步翻译
工作流程
首次查询：未命中缓存 → 异步翻译 → 返回空翻译 → 不阻塞
翻译完成：结果存入缓存
后续查询：命中缓存 → 立即返回 → 快速响应

2025-12-07 09:14:47 +0800

05 Dec, 2025

4 commits

7bc756c5 优化 ES 查询构建 ... Browse Code »

将 must 子句改为 should 子句的多查询策略
实现以下查询类型：
base_query：主查询，使用 AND 操作符和 75% minimum_should_match
翻译查询：跨语言查询，boost=0.4
短语查询：短查询的精确短语匹配
关键词查询：基于提取名词的查询，boost=0.1
添加 _get_match_fields() 方法，支持中英文字段动态映射
4. 关键改进点
minimum_should_match 从 67% 提升到 75%
添加 operator: "AND" 确保所有词都匹配
使用 should 子句实现多策略融合
支持短语查询和关键词查询的智能触发

2025-12-05 22:54:06 +0800

9a9b9ec5 1. facet disjunctive ... Browse Code »
```
2. queries
```
tangwang
2025-12-05 19:39:47 +0800
8c503501 补充基于阿里云的embedding Browse Code »

tangwang
2025-12-05 16:58:11 +0800
8f6f14da test data prepare: ... Browse Code »
```
quriers
products
```
tangwang
2025-12-05 11:12:04 +0800

04 Dec, 2025

3 commits

6d524cb4 docs优化 Browse Code »

tangwang
2025-12-04 16:02:55 +0800

c581becd feat: 实现 Multi-Select Faceting 和 Selected 状态标记 ... Browse Code »

核心功能：
- 添加 multi_select 字段到 FacetConfig（默认为 true）
- 实现 post_filter 支持 disjunctive faceting
- 后端自动标记 facet 值的 selected 状态
- 支持 specifications 和普通字段的 multi-select

技术改进：
- ESQueryBuilder: 分离 conjunctive/disjunctive filters
- ResultFormatter: 根据 current_filters 标记 selected
- Searcher: 传递 facet_configs 给 query builder

文档更新：
- 添加 multi_select_faceting.md 详细文档
- 更新 API 对接指南，说明新功能
- 添加测试脚本 test_multi_select_facet.py

业界标准：
- 遵循 Elasticsearch/Algolia/Amazon 的最佳实践
- 提供探索式搜索体验
- 前后端职责清晰分离

2025-12-04 15:29:52 +0800

b8317ce4 docs Browse Code »

tangwang
2025-12-04 14:41:38 +0800

03 Dec, 2025

3 commits

13320ac6 分面接口修改： ... Browse Code »

{
  "facets": [
    {
      "field": "category1_name",
      "size": 15,
      "type": "terms"
    },
    "specifications.color",
    "specifications.size"
  ]
}

{
  "facets": [
    {"field": "category1_name", "size": 15, "type": "terms"},
    {"field": "specifications.color", "size": 10, "type": "terms"},
    {"field": "specifications.size", "size": 10, "type": "terms"}
  ]
}

之前是上面的接口形式，主要是考虑 属性的分面， 因为 款式都是有限的 不需要设定 "size": 10, "type": "terms" 这些参数。

但是从接口设计层面，最好按下面这样，这样的话 specifications.color 和 category1_name 的组装格式 完全一样。前端不需要感知 属性分面 和 类别等其他字段分面的差异。

2025-12-03 21:20:50 +0800

e7ad2b4a 测试页面分页配置 Browse Code »

tangwang
2025-12-03 11:42:35 +0800

c973d288 1. 类目字段处理 ... Browse Code »

2. mysql->ES数据灌入脚本优化。修改了多个字段的处理方式，完善日志，为以后抽出来服务供java全量增量调用做准备

2025-12-03 11:28:07 +0800

02 Dec, 2025

7 commits

697047e4 rm useless doc Browse Code »

tangwang
2025-12-02 18:41:18 +0800

33839b37 属性值参与搜索： ... Browse Code »

1. 加了一个配置searchable_option_dimensions，功能是配置子sku的option1_value option2_value option3_value 哪些参与检索（进索引、以及在线搜索的时候将对应字段纳入搜索field）。格式为list，选择三者中的一个或多个。

2. 索引 @mappings/search_products.json 要加3个字段 option1_values option2_values option3_values，各自的 数据灌入（mysql->ES）的模块也要修改，这个字段是对子sku的option1_value option2_value option3_value分别提取去抽后得到的list。
searchable_option_dimensions 中配置的，才进索引，比如 searchable_option_dimensions = ['option1'] 则 只对option1提取属性值去重组织list进入索引，其余两个字段为空

3. 在线 对应的将 searchable_option_dimensions 中 对应的索引字段纳入 multi_match 的 fields，权重设为0.5 （各个字段的权重配置放到一起集中管理）

1. 配置文件改动 (config/config.yaml)
✅ 在 spu_config 中添加了 searchable_option_dimensions 配置项，默认值为 ['option1', 'option2', 'option3']
✅ 添加了3个新字段定义：option1_values, option2_values, option3_values，类型为 KEYWORD，权重为 0.5
✅ 在 default 索引域的 fields 列表中添加了这3个字段，使其参与搜索
2. ES索引Mapping改动 (mappings/search_products.json)
✅ 添加了3个新字段：option1_values, option2_values, option3_values，类型为 keyword
3. 配置加载器改动 (config/config_loader.py)
✅ 在 SPUConfig 类中添加了 searchable_option_dimensions 字段
✅ 更新了配置解析逻辑，支持读取 searchable_option_dimensions
✅ 更新了配置转换为字典的逻辑
4. 数据灌入改动 (indexer/spu_transformer.py)
✅ 在初始化时加载配置，获取 searchable_option_dimensions
✅ 在 _transform_spu_to_doc 方法中添加逻辑：
从所有子SKU中提取 option1, option2, option3 值
去重后存入 option1_values, option2_values, option3_values
根据配置决定哪些字段实际写入数据（未配置的字段写空数组）

=

2025-12-02 18:35:50 +0800

0a915b21 fix last up Browse Code »

tangwang
2025-12-02 16:04:16 +0800
0e1f2303 last up Browse Code »

tangwang
2025-12-02 15:55:26 +0800

a3a5d41b （sku_filter_dimension 支持多维度组合去重） ... Browse Code »

后端请求模型变更（api/models.py）
SearchRequest.sku_filter_dimension 从 Optional[str] 改为 Optional[List[str]]。
语义：列表表示一个或多个“维度标签”，例如：
单维度：["color"]、["option1"]
多维度：["color", "size"]、["option1", "option2"]
描述更新为：对 维度组合进行分组，每个组合只保留一个 SKU。
结果格式化与去重逻辑（api/result_formatter.py）
ResultFormatter.format_search_results(..., sku_filter_dimension: Optional[List[str]] = None)，调用处已同步更新。
单维度旧逻辑升级为多维度逻辑：
新方法：_filter_skus_by_dimensions(skus, dimensions, option1_name, option2_name, option3_name, specifications)。
维度解析规则（按顺序处理，并去重）：
若维度是 option1 / option2 / option3 → 对应 option1_value / option2_value / option3_value。
否则，将维度字符串转小写后，分别与 option1_name / option2_name / option3_name 对比，相等则映射到对应的 option*_value。
未能映射到任何字段的维度会被忽略。
对每个 SKU：
按解析出的字段列表（例如 ["option1_value", "option2_value"]）取值，组成 key，如 ("red", "L")；None 用空串 ""。
按 key 分组，每个 key 只保留遇到的第一个 SKU。
若列表为空或所有维度都无法解析，则 不做过滤，返回原始 skus。
Searcher 参数类型同步（search/searcher.py）
Searcher.search(...) 中 sku_filter_dimension 参数类型从 Optional[str] 改为 Optional[List[str]]。
传给 ResultFormatter.format_search_results 时，直接传该列表。
前端参数格式调整（frontend/static/js/app.js）
输入框 #skuFilterDimension 依旧是一个文本框，但解析方式改为：
函数 getSkuFilterDimension()：
读取文本，如："color" 或 "color,size" 或 "option1, color"。
用逗号 , 拆分，trim() 后过滤空串，返回 字符串数组，例如：
"color" → ["color"]
"color,size" → ["color", "size"]
若最终数组为空，则返回 null。
搜索请求体中仍使用字段名 sku_filter_dimension，但现在值是 string[] 或 null：
    body: JSON.stringify({      // ...      sku_filter_dimension: skuFilterDimension,  // 例如 ["color", "size"]      debug: state.debug    })
文档更新（docs/搜索API对接指南.md）
请求体示例中的类型由：
"sku_filter_dimension": "string"
改为：
"sku_filter_dimension": ["string"]
参数表中：
从 string 改为 array[string]，说明为“维度列表，按组合分组，每个组合保留一个 SKU”。
功能说明章节“SKU筛选维度 (sku_filter_dimension)”已调整为 列表语义 + 组合去重，并补充了示例：
单维度：
      {        "query": "芭比娃娃",        "sku_filter_dimension": ["color"]      }
多维度组合：
      {        "query": "芭比娃娃",        "sku_filter_dimension": ["color", "size"]      }
使用方式总结
单维度去重（保持旧行为的等价写法）
旧："sku_filter_dimension": "color"
新："sku_filter_dimension": ["color"]
多维度组合去重（你新提的需求）
例如希望“每个 SPU 下，同一颜色+尺码组合只保留一个 SKU”：
    {      "query": "芭比娃娃",      "sku_filter_dimension": ["color", "size"]    }

2025-12-02 15:53:51 +0800

c4263d93 支持 sku_filter_dimension ... Browse Code »
```
sku_filter_dimension=color
sku_filter_dimension=option1 / option2 /option3
以上两种方式都可以
```
tangwang
2025-12-02 15:40:32 +0800
9f96d6f3 短query不用语义搜索 ... Browse Code »
```
query config/ranking config优化
```
tangwang
2025-12-02 13:38:31 +0800

01 Dec, 2025

3 commits

99bea633 add logs Browse Code »

tangwang
2025-12-01 15:21:22 +0800
e2539fd3 调试信息 Browse Code »

tangwang
2025-12-01 12:42:20 +0800
85f08823 过滤逻辑 ... Browse Code »
```
不同维度（不同的 name）：求交集
相同维度（相同的 name）：求并集
```
tangwang
2025-12-01 09:50:49 +0800

29 Nov, 2025

1 commit

a10a89a3 构造测试数据用于测试分类和三种属性的分面。 Browse Code »

tangwang
2025-11-29 09:53:31 +0800

28 Nov, 2025

1 commit

acf1349c fake 批量导入数据的脚步（多款式 ) ... Browse Code »

脚本：scripts/csv_to_excel_multi_variant.py

主要功能：
单一款式商品（S 类型）- 30%
商品属性为 S
不填写 option1/option2/option3
包含所有商品信息（标题、描述、价格、库存等）
多款式商品（M+P 类型）- 70%
M 行（商品主体）：
商品属性为 M
填写商品主体信息（标题、描述、SEO、分类等）
option1="color", option2="size", option3="material"
不填写价格、库存、SKU 等子款式信息
P 行（子款式）：
商品属性为 P
商品标题与 M 行一致
option1/2/3 填写具体值（color、size、material 的笛卡尔积）
每个 SKU 有独立的价格、库存、SKU 编码等
多款式商品生成规则：
Color（颜色）：从 color1 到 color30 中随机选择 2-10 个
Size（尺寸）：从 1-30 中随机选择 4-8 个
Material（材质）：从商品标题按空格分割后的最后一个字符串提取（去掉特殊字符）
笛卡尔积：生成所有组合的 P 行（例如：3 个颜色 × 5 个尺寸 × 1 个材质 = 15 个 SKU）

2025-11-28 13:33:20 +0800

27 Nov, 2025

3 commits

ca91352a 更新文档 ... Browse Code »

1. 搜索API对接指南.md
在“精确匹配过滤器”部分添加了 specifications 嵌套过滤说明
支持单个规格过滤和多个规格过滤（OR 逻辑）
在“分面配置”部分完善了 specifications 分面说明
添加了两种分面模式：所有规格名称和指定规格名称
在“常见场景示例”部分添加了场景5-8，包含规格过滤和分面的完整示例
2. 搜索API速查表.md
在“精确匹配过滤”部分添加了 specifications 过滤的快速参考
在“分面搜索”部分添加了 specifications 分面的快速参考
更新了完整示例，包含 specifications 的使用
3. Search-API-Examples.md
在“过滤器使用”部分添加了示例4-6，展示 specifications 过滤
在“分面搜索”部分添加了示例2-3，展示 specifications 分面
更新了 Python 和 JavaScript 完整示例，包含 specifications 的使用
在“常见使用场景”部分添加了场景2.1，展示带规格过滤的搜索结果页
4. 索引字段说明v2.md
更新了 specifications 字段的查询示例，包含 API 格式和 ES 查询结构
添加了两种分面模式的说明和示例
更新了“分面字段”说明，明确支持指定规格名称的分面

5. 补充参数
参数说明：sku_filter_dimension 是可选参数，用于按指定维度过滤每个SPU下的SKU
支持的维度：
直接选项字段：option1、option2、option3
规格名称：通过 option1_name、option2_name、option3_name 匹配（如 color、size）

2025-11-27 12:13:55 +0800

f7d3cf70 更新文档 ... Browse Code »

1. 搜索API对接指南.md
在“精确匹配过滤器”部分添加了 specifications 嵌套过滤说明
支持单个规格过滤和多个规格过滤（OR 逻辑）
在“分面配置”部分完善了 specifications 分面说明
添加了两种分面模式：所有规格名称和指定规格名称
在“常见场景示例”部分添加了场景5-8，包含规格过滤和分面的完整示例
2. 搜索API速查表.md
在“精确匹配过滤”部分添加了 specifications 过滤的快速参考
在“分面搜索”部分添加了 specifications 分面的快速参考
更新了完整示例，包含 specifications 的使用
3. Search-API-Examples.md
在“过滤器使用”部分添加了示例4-6，展示 specifications 过滤
在“分面搜索”部分添加了示例2-3，展示 specifications 分面
更新了 Python 和 JavaScript 完整示例，包含 specifications 的使用
在“常见使用场景”部分添加了场景2.1，展示带规格过滤的搜索结果页
4. 索引字段说明v2.md
更新了 specifications 字段的查询示例，包含 API 格式和 ES 查询结构
添加了两种分面模式的说明和示例
更新了“分面字段”说明，明确支持指定规格名称的分面

2025-11-27 11:04:14 +0800

f0d020c3 多语言查询改为只支持中英文两种，filters and ( text_call or embedding_recall)，然后 function_score 支持新鲜度等提权字段 ... Browse Code »

1. 前端传递的过滤条件永远是要起作用的
2. 然后召回模块包括文本相关性召回（中英文都是用）和向量召回，两者相互补充。
3. 套用function_score以支持两种打分融合和各种提权字段
4. 只需要build_query 这一层。

实际操作：
1. 架构简化
移除了 MultiLanguageQueryBuilder 层级
只保留单层的 ESQueryBuilder.build_query 方法
2. 查询结构重构
实现了 filters and (text_recall or embedding_recall) 结构：
前端过滤条件：永远起作用（放在 filter 中）
文本召回：同时搜索中英文字段（multi_match 覆盖 title_zh/en, brief_zh/en 等）
向量召回：KNN 查询（独立参数，ES 会自动合并）
Function_score：包装召回部分，支持提权字段配置
3. 文本匹配字段更新
在 DEFAULT_MATCH_FIELDS 中添加了中英文字段：
中文：title_zh, brief_zh, description_zh, vendor_zh, category_path_zh, category_name_zh
英文：title_en, brief_en, description_en, vendor_en, category_path_en, category_name_en
语言无关：tags
4. Function_score 框架保留
保留了 function_score 配置框架（FUNCTION_SCORE_CONFIG）
支持 filter_weight、field_value_factor、decay 等提权函数
可以从配置中扩展提权字段
5. 测试验证
所有功能测试通过：
基本文本搜索
带过滤条件的搜索
范围过滤
分面搜索
英文查询

2025-11-27 09:12:44 +0800