ai-saas / saas-search

10 Mar, 2026

1 commit

bd96cead 1. 动态多语言字段与统一策略配置 ... Browse File »

- 配置改为“字段基名 + 动态语言后缀”方案，已不再依赖旧 `indexes`。
[config.yaml](/data/saas-search/config/config.yaml#L17)
- `search_fields` / `text_query_strategy` 已进入强校验与解析流程。
[config_loader.py](/data/saas-search/config/config_loader.py#L254)

2. 查询语言计划与翻译等待策略
- `QueryParser` 现在产出
  `query_text_by_lang`、`search_langs`、`source_in_index_languages`。
[query_parser.py](/data/saas-search/query/query_parser.py#L41)
- 你要求的两种翻译路径都在：
  - 源语言不在店铺 `index_languages`：`translate_multi_async` + 等待
    future
  - 源语言在 `index_languages`：`translate_multi(...,
    async_mode=True)`，尽量走缓存
[query_parser.py](/data/saas-search/query/query_parser.py#L284)

3. ES 查询统一文本策略（无 AST 分支）
- 主召回按 `search_langs` 动态拼 `field.{lang}`，翻译语种做次权重
  `should`。
[es_query_builder.py](/data/saas-search/search/es_query_builder.py#L454)
- 布尔 AST 路径已删除，仅保留统一文本策略。
[es_query_builder.py](/data/saas-search/search/es_query_builder.py#L185)

4. LanguageDetector 优化
- 从“拉丁字母默认英文”升级为：脚本优先 +
  拉丁语系打分（词典/变音/后缀）。
[language_detector.py](/data/saas-search/query/language_detector.py#L68)

5. 布尔能力清理（补充）
- 已删除废弃模块：
[boolean_parser.py](/data/saas-search/search/boolean_parser.py)
- `search/__init__` 已无相关导出。
[search/__init__.py](/data/saas-search/search/__init__.py)

6. `indexes` 过时收口（补充）
- 兼容函数改为基于动态字段生成，不再依赖 `config.indexes`。
[utils.py](/data/saas-search/config/utils.py#L24)
- Admin 配置接口改为返回动态字段配置，不再暴露 `num_indexes`。
[admin.py](/data/saas-search/api/routes/admin.py#L52)

7. suggest

2026-03-10 16:06:31 +0800

27 Jan, 2026

1 commit

3a5fda00 1. ES字段 skus的 image_src 字段读取兼容 imageSrc （ES 本应该写入image_src，但是写入了imageSrc，暂时不做全量了，这里兼容下） ... Browse File »
```
2. 返回query_normlized
```
tangwang
2026-01-27 10:24:14 +0800

06 Jan, 2026

2 commits

2739b281 多语言索引调整 Browse File »

tangwang
2026-01-06 19:59:36 +0800

d7d48f52 改动（mapping + 灌入结构） ... Browse File »

mappings/search_products.json：把原来的 title_zh/title_en/brief_zh/... 改成 按语言 key 的对象结构（ /products/_doc/1 { "title": {"en":...} } ）
同时在这些字段下 预置了全部 analyzer 语言:
arabic, armenian, basque, brazilian, bulgarian, catalan, chinese, cjk, czech, danish, dutch, english, finnish, french, galician, german, greek, hindi, hungarian, indonesian, italian, norwegian, persian, portuguese, romanian, russian, spanish, swedish, turkish, thai

实现为 type: object + properties，同时满足“按语言灌入”和“按语言 analyzer”。
索引灌入（全量/增量/transformer）已同步改完
indexer/document_transformer.py：输出从 title_zh/title_en/... 改为：
title: {<primary_lang>: 原文, en?: 翻译, zh?: 翻译}
brief/description/vendor 同理
category_path/category_name_text 也改为语言对象（避免查询侧继续依赖旧字段）
indexer/incremental_service.py：embedding 取值从 title_en/title_zh 改为从 title 对象里优先取 en，否则取 zh，否则取任一可用语言。
查询侧与配置、API/文档已同步
search/es_query_builder.py：查询字段统一改成点路径：title.zh / title.en / vendor.zh / vendor.zh.keyword / category_name_text.zh 等。
config/config.yaml：field boosts / indexes 里的字段名同步为新点路径。
API & formatter：
api/result_formatter.py 已支持新结构（并保留对旧 *_zh/_en 的兼容兜底）。
api/models.py、相关 docs/examples 里的 vendor_zh.keyword 等已更新为 vendor.zh.keyword。
文档/脚本：docs/、README.md、scripts/ 里所有旧字段名引用已批量替换为新结构。

2026-01-06 19:42:20 +0800

25 Dec, 2025

1 commit

d8ca3b13 修复分面结果各个选项结果数和实际不一致的问题（因为统计的是子文档个数） ... Browse File »

问题：nested 聚合统计的是嵌套文档（specifications 条目）数量，而不是产品（父文档）数量。
修复内容：
在 es_query_builder.py 中：为 specifications 分面的聚合添加了 reverse_nested 子聚合，用于统计产品数量：
   "aggs": {       "product_count": {           "reverse_nested": {}       }   }
在 result_formatter.py 中：更新读取逻辑，从 product_count.doc_count 读取产品数量，而不是直接使用 doc_count。
修复效果：
之前：分面显示 62（统计了 62 个嵌套文档/规格条目）
现在：分面显示实际的产品数量（例如 2），与搜索结果数量一致

2025-12-25 13:12:34 +0800

04 Dec, 2025

1 commit

c581becd feat: 实现 Multi-Select Faceting 和 Selected 状态标记 ... Browse File »

核心功能：
- 添加 multi_select 字段到 FacetConfig（默认为 true）
- 实现 post_filter 支持 disjunctive faceting
- 后端自动标记 facet 值的 selected 状态
- 支持 specifications 和普通字段的 multi-select

技术改进：
- ESQueryBuilder: 分离 conjunctive/disjunctive filters
- ResultFormatter: 根据 current_filters 标记 selected
- Searcher: 传递 facet_configs 给 query builder

文档更新：
- 添加 multi_select_faceting.md 详细文档
- 更新 API 对接指南，说明新功能
- 添加测试脚本 test_multi_select_facet.py

业界标准：
- 遵循 Elasticsearch/Algolia/Amazon 的最佳实践
- 提供探索式搜索体验
- 前后端职责清晰分离

2025-12-04 15:29:52 +0800

02 Dec, 2025

2 commits

a3a5d41b （sku_filter_dimension 支持多维度组合去重） ... Browse File »

后端请求模型变更（api/models.py）
SearchRequest.sku_filter_dimension 从 Optional[str] 改为 Optional[List[str]]。
语义：列表表示一个或多个“维度标签”，例如：
单维度：["color"]、["option1"]
多维度：["color", "size"]、["option1", "option2"]
描述更新为：对 维度组合进行分组，每个组合只保留一个 SKU。
结果格式化与去重逻辑（api/result_formatter.py）
ResultFormatter.format_search_results(..., sku_filter_dimension: Optional[List[str]] = None)，调用处已同步更新。
单维度旧逻辑升级为多维度逻辑：
新方法：_filter_skus_by_dimensions(skus, dimensions, option1_name, option2_name, option3_name, specifications)。
维度解析规则（按顺序处理，并去重）：
若维度是 option1 / option2 / option3 → 对应 option1_value / option2_value / option3_value。
否则，将维度字符串转小写后，分别与 option1_name / option2_name / option3_name 对比，相等则映射到对应的 option*_value。
未能映射到任何字段的维度会被忽略。
对每个 SKU：
按解析出的字段列表（例如 ["option1_value", "option2_value"]）取值，组成 key，如 ("red", "L")；None 用空串 ""。
按 key 分组，每个 key 只保留遇到的第一个 SKU。
若列表为空或所有维度都无法解析，则 不做过滤，返回原始 skus。
Searcher 参数类型同步（search/searcher.py）
Searcher.search(...) 中 sku_filter_dimension 参数类型从 Optional[str] 改为 Optional[List[str]]。
传给 ResultFormatter.format_search_results 时，直接传该列表。
前端参数格式调整（frontend/static/js/app.js）
输入框 #skuFilterDimension 依旧是一个文本框，但解析方式改为：
函数 getSkuFilterDimension()：
读取文本，如："color" 或 "color,size" 或 "option1, color"。
用逗号 , 拆分，trim() 后过滤空串，返回 字符串数组，例如：
"color" → ["color"]
"color,size" → ["color", "size"]
若最终数组为空，则返回 null。
搜索请求体中仍使用字段名 sku_filter_dimension，但现在值是 string[] 或 null：
    body: JSON.stringify({      // ...      sku_filter_dimension: skuFilterDimension,  // 例如 ["color", "size"]      debug: state.debug    })
文档更新（docs/搜索API对接指南.md）
请求体示例中的类型由：
"sku_filter_dimension": "string"
改为：
"sku_filter_dimension": ["string"]
参数表中：
从 string 改为 array[string]，说明为“维度列表，按组合分组，每个组合保留一个 SKU”。
功能说明章节“SKU筛选维度 (sku_filter_dimension)”已调整为 列表语义 + 组合去重，并补充了示例：
单维度：
      {        "query": "芭比娃娃",        "sku_filter_dimension": ["color"]      }
多维度组合：
      {        "query": "芭比娃娃",        "sku_filter_dimension": ["color", "size"]      }
使用方式总结
单维度去重（保持旧行为的等价写法）
旧："sku_filter_dimension": "color"
新："sku_filter_dimension": ["color"]
多维度组合去重（你新提的需求）
例如希望“每个 SPU 下，同一颜色+尺码组合只保留一个 SKU”：
    {      "query": "芭比娃娃",      "sku_filter_dimension": ["color", "size"]    }

2025-12-02 15:53:51 +0800

c4263d93 支持 sku_filter_dimension ... Browse File »
```
sku_filter_dimension=color
sku_filter_dimension=option1 / option2 /option3
以上两种方式都可以
```
tangwang
2025-12-02 15:40:32 +0800

29 Nov, 2025

1 commit

a10a89a3 构造测试数据用于测试分类和三种属性的分面。 Browse File »

tangwang
2025-11-29 09:53:31 +0800

27 Nov, 2025

2 commits

ca91352a 更新文档 ... Browse File »

1. 搜索API对接指南.md
在“精确匹配过滤器”部分添加了 specifications 嵌套过滤说明
支持单个规格过滤和多个规格过滤（OR 逻辑）
在“分面配置”部分完善了 specifications 分面说明
添加了两种分面模式：所有规格名称和指定规格名称
在“常见场景示例”部分添加了场景5-8，包含规格过滤和分面的完整示例
2. 搜索API速查表.md
在“精确匹配过滤”部分添加了 specifications 过滤的快速参考
在“分面搜索”部分添加了 specifications 分面的快速参考
更新了完整示例，包含 specifications 的使用
3. Search-API-Examples.md
在“过滤器使用”部分添加了示例4-6，展示 specifications 过滤
在“分面搜索”部分添加了示例2-3，展示 specifications 分面
更新了 Python 和 JavaScript 完整示例，包含 specifications 的使用
在“常见使用场景”部分添加了场景2.1，展示带规格过滤的搜索结果页
4. 索引字段说明v2.md
更新了 specifications 字段的查询示例，包含 API 格式和 ES 查询结构
添加了两种分面模式的说明和示例
更新了“分面字段”说明，明确支持指定规格名称的分面

5. 补充参数
参数说明：sku_filter_dimension 是可选参数，用于按指定维度过滤每个SPU下的SKU
支持的维度：
直接选项字段：option1、option2、option3
规格名称：通过 option1_name、option2_name、option3_name 匹配（如 color、size）

2025-11-27 12:13:55 +0800

f7d3cf70 更新文档 ... Browse File »

1. 搜索API对接指南.md
在“精确匹配过滤器”部分添加了 specifications 嵌套过滤说明
支持单个规格过滤和多个规格过滤（OR 逻辑）
在“分面配置”部分完善了 specifications 分面说明
添加了两种分面模式：所有规格名称和指定规格名称
在“常见场景示例”部分添加了场景5-8，包含规格过滤和分面的完整示例
2. 搜索API速查表.md
在“精确匹配过滤”部分添加了 specifications 过滤的快速参考
在“分面搜索”部分添加了 specifications 分面的快速参考
更新了完整示例，包含 specifications 的使用
3. Search-API-Examples.md
在“过滤器使用”部分添加了示例4-6，展示 specifications 过滤
在“分面搜索”部分添加了示例2-3，展示 specifications 分面
更新了 Python 和 JavaScript 完整示例，包含 specifications 的使用
在“常见使用场景”部分添加了场景2.1，展示带规格过滤的搜索结果页
4. 索引字段说明v2.md
更新了 specifications 字段的查询示例，包含 API 格式和 ES 查询结构
添加了两种分面模式的说明和示例
更新了“分面字段”说明，明确支持指定规格名称的分面

2025-11-27 11:04:14 +0800

26 Nov, 2025

2 commits

577ec972 返回给前端的字段、格式适配。主要包括字段配置、前端补充一个语言字段处理title_en title_zh等语言选择、分面信息的提取等 Browse File »

tangwang
2025-11-26 22:35:07 +0800
bf89b597 feat(search): adapt engine to new SPU-level index, mapping and facets Browse File »

tangwang
2025-11-26 21:18:58 +0800

14 Nov, 2025

2 commits

cadc77b6 索引字段名、变量名、API数据结构字段名都对齐spu/sku表 Browse File »

tangwang
2025-11-14 18:51:31 +0800
cd3799c6 tenant2 1w测试数据 mock -> mysql and mysql->ES ok, search kw ok Browse File »

tangwang
2025-11-14 11:57:48 +0800

13 Nov, 2025

2 commits

f0577ce4 fix last up Browse File »

tangwang
2025-11-13 11:53:59 +0800

1f6d15fa 重构：SPU级别索引、统一索引架构和API响应格式优化 ... Browse File »

主要变更：
1. 去掉数据源应用结构配置化，我们只针对店匠的spu sku表设计索引，数据灌入流程是写死的(只是满足测试需求，后面外层应用负责数据全量+增量灌入)。搜索系统主要关注如何适配外部搜索需求
目前有两个数据灌入脚本，一种是之前的，一种是现在的从两个店匠的表sku表+spu表读取并且以spu为单位组织doc。
   - 配置只关注ES搜索相关配置，提高可维护性
   - 创建base配置（店匠通用配置）

2. 索引结构重构（SPU维度）
   - 所有客户共享search_products索引，通过tenant_id隔离
   - 支持嵌套variants字段（SKU变体数组）
   - 创建SPUTransformer用于SPU数据转换

3. API响应格式优化
   - 约定一套搜索结果的格式，而不是直接暴露ES doc的结构(_id _score _source内的字段）
   - 添加ProductResult和VariantResult模型
   - 添加suggestions和related_searches字段 (预留接口，逻辑暂未实现)

4. 数据导入流程
   - 创建店匠数据导入脚本（ingest_shoplazza.py）
   - Pipeline层决定数据源，配置不包含数据源信息
   - 创建测试数据生成和导入脚本

5. 文档更新
   - 更新设计文档，反映新架构
   - 创建BASE_CONFIG_GUIDE.md使用指南

2025-11-13 11:42:27 +0800