ai-saas / saas-search

10 Apr, 2026

1 commit

984f14f9 product_enrich模块迁出 Browse Dir »

tangwang
2026-04-10 21:47:37 +0800

09 Apr, 2026

6 commits

32e9b30c scripts/ 根目录主要保留启动/编排入口，其他脚本归到了几个固定子目录： ... Browse Dir »

  - 数据转换放到 scripts/data_import/README.md
  - 诊断巡检放到 scripts/inspect/README.md
  - 运维辅助放到 scripts/ops/README.md
  - 前端辅助服务放到 scripts/frontend/frontend_server.py
  - 翻译模型下载放到 scripts/translation/download_translation_models.py
  - 临时图片补 embedding 脚本收敛成
    scripts/maintenance/embed_tenant_image_urls.py
  - Redis 监控脚本并入 redis/，现在是 scripts/redis/monitor_eviction.py

  同时我把真实调用链都改到了新位置：

  - scripts/start_frontend.sh
  - scripts/start_cnclip_service.sh
  - scripts/service_ctl.sh
  - scripts/setup_translator_venv.sh
  - scripts/README.md

  文档里涉及这些脚本的路径也同步修了，主要是 docs/QUICKSTART.md 和
translation/README.md。

2026-04-09 23:48:39 +0800

3abbc95a 重构(scripts): 整理scripts目录，按现架构分类并迁移性能/手动测试脚本 ... Browse Dir »

问题背景：
- scripts/
  目录下混有服务启动、数据转换、性能压测、临时脚本及历史备份目录
- 存在大量中间迭代遗留信息，不利于维护和新人理解
- 现行服务编排已稳定为 service_ctl up all 的集合：tei / cnclip /
  embedding / embedding-image / translator / reranker / backend /
indexer / frontend / eval-web，不再保留 reranker-fine 默认位

调整内容：
1. 根 scripts/ 收敛为运行、运维、环境、数据处理脚本，并新增
   scripts/README.md 说明文档
2. 性能/压测/调参脚本整体迁至 benchmarks/ 目录，同步更新
   benchmarks/README.md
3. 人工试跑脚本迁至 tests/manual/ 目录，同步更新 tests/manual/README.md
4. 删除明确过时内容：
   - scripts/indexer__old_2025_11/
   - scripts/start.sh
   - scripts/install_server_deps.sh
5. 同步修正以下文档中的路径及过时描述：
   - 根目录 README.md
   - 性能报告相关文档
   - reranker/translation 模块文档

技术细节：
- 性能测试不放常规 tests/
  的原因：这类脚本依赖真实服务、GPU、模型和环境噪声，不适合作为稳定回归门禁；benchmarks/
更贴合其定位
- tests/manual/ 仅存放需要人工启动依赖、手工观察结果的接口试跑脚本
- 所有迁移后的 Python 脚本已通过 py_compile 语法校验
- 所有迁移后的 Shell 脚本已通过 bash -n 语法校验

校验结果：
- py_compile: 通过
- bash -n: 通过

2026-04-09 23:36:06 +0800

048631be 1. 新增说明文档《product_enrich模块说明.md》 ... Browse Dir »

2. 删掉自动推断 taxonomy profile的逻辑，build_index_content_fields()
3. 所有 taxonomy profile 都输出 zh/en”，并把按行业切语言的逻辑去掉
   只接受显式传入的 category_taxonomy_profile

2026-04-09 18:25:43 +0800

dabd52a5 feat(indexer): 支持多品类 taxonomy 动态适配与双语/en 输出控制 ... Browse Dir »

本次迭代对检索系统的内容复化模块进行了较大规模的重构，将原先硬编码的“仅服饰(apparel)”品类拓展至
taxonomy.md
中定义的所有品类，同时优化了代码结构，降低了扩展新品类的成本。核心设计采用注册表模式(profile
registry)，按品类 profile
分组进行批处理，并明确区分双语(zh+en)与仅英文(en)输出策略。

【修改内容】

1. 品类支持范围扩展
   -
新增支持的品类：3c、bags、pet_supplies、electronics、outdoor、home_appliances、home_living、wigs、beauty、accessories、toys、shoes、sports、others
   - 所有新品类在 taxonomy 输出阶段仅返回 en 字段，避免多语言字段膨胀
   - 保留服饰(apparel)品类的双语输出(zh + en)，维持原有业务兼容性

2. 核心代码重构
   - `indexer/product_enrich.py`
     - 新增 `TAXONOMY_PROFILES`
       注册表，以数据驱动方式定义每个品类的输出语言、prompt
映射、taxonomy 字段集合
     - 重写 `_enrich_taxonomy_batch`：按 profile 分组批量调用
       LLM，避免为每个品类编写独立分支
     - 引入 `_infer_profile_from_category()` 函数，从 SPU 的 category
       字段自动推断所属 profile（用于内部索引路径，解决混合目录默认
fallback 到服饰的问题）
   - `indexer/product_enrich_prompts.py`
     - 将原有单一服饰 prompt 重构为 `PROMPT_TEMPLATES` 字典，按 profile
       存储不同提示词
     - 所有非服饰品类共享一套精简提示模板，仅要求输出 en 字段
   - `indexer/document_transformer.py`
     - 在构建 enrichment 请求时传递 category 信息，供下游按 profile 路由
     - 调整 `_build_enrich_batch` 逻辑，使批量请求支持混合品类并正确分组
   - `indexer/indexer.py`（API 层）
     - `/indexer/enrich-content` 接口的请求模型增加可选的
       `category_profile`
字段，允许调用方显式指定品类；未指定时由服务端自动推断
     - 更新参数校验与错误处理，新增对 `others` 等兜底品类的支持

3. 文档同步更新
   - `docs/搜索API对接指南-05-索引接口（Indexer）.md`：增加品类 profile
     参数说明，标注非服饰品类 taxonomy 仅返回 en 字段
   -
`docs/搜索API对接指南-07-微服务接口（Embedding-Reranker-Translation）.md`：更新
enrichment 微服务的调用示例，体现多品类分组批处理
   - `taxonomy.md`：补充各品类的字段清单，明确 en
     字段为所有非服饰品类的唯一输出

【技术细节】

- **注册表设计**：
  ```python
  TAXONOMY_PROFILES = {
      "apparel": {"lang": ["zh", "en"], "prompt_key": "apparel",
"fields": [...]},
      "3c": {"lang": ["en"], "prompt_key": "default", "fields": [...]},
      \# ...
  }
  ```
  新增品类只需在注册表中添加一项，并确保 `PROMPT_TEMPLATES` 中存在对应的
prompt_key，无需修改控制流逻辑。

- **按 profile 分组批处理**：
  - 原有实现：所有产品混在一起，使用同一套服饰
    prompt，导致非服饰产品被错误填充。
  - 重构后：`_enrich_taxonomy_batch` 先根据每个产品的 profile
    分组，每组独立构造 LLM
请求，响应结果再按原始顺序合并。分组粒度可配置，避免小分组带来的过多请求开销。

- **自动品类推断**：
  - 对于内部索引（非显式调用 enrichment 接口的场景），通过
    `_infer_profile_from_category` 解析 SPU 的 `category_l1/l2/l3`
字段，映射到最匹配的
profile。映射规则基于关键词匹配（如“手机”->“3c”，“狗粮”->“pet_supplies”），未匹配时
fallback 到 `apparel` 以保证系统平稳过渡。

- **输出字段裁剪**：
  - 由于 Elasticsearch mapping 中 `enriched_taxonomy_attributes.value`
    字段仅存储单个值（不分语言），非服饰品类的 LLM
输出直接写入该字段；服饰品类则使用动态模板 `value.zh` 和
`value.en`。代码中通过 `_apply_lang_output` 函数统一处理。

- **代码量与可维护性**：
  - 虽然因新增大量品类定义导致总行数略有增长（~+180
    行），但条件分支数量从 5 处减少到 1 处（仅 profile
查找）。新增品类的平均成本仅为注册表 3 行 + prompt 模板 10
行，无需改动核心 enrichment 循环。

【影响文件】
- `indexer/product_enrich.py`
- `indexer/product_enrich_prompts.py`
- `indexer/document_transformer.py`
- `indexer/indexer.py`
- `docs/搜索API对接指南-05-索引接口（Indexer）.md`
-
`docs/搜索API对接指南-07-微服务接口（Embedding-Reranker-Translation）.md`
- `taxonomy.md`
- `tests/test_product_enrich_partial_mode.py`（适配多 profile 测试用例）
- `tests/test_llm_enrichment_batch_fill.py`
- `tests/test_process_products_batching.py`

【测试验证】
- 执行单元测试与集成测试：`pytest
  tests/test_product_enrich_partial_mode.py
tests/test_llm_enrichment_batch_fill.py
tests/test_process_products_batching.py
tests/ci/test_service_api_contracts.py`，全部通过（52 passed）
- 手动验证混合目录场景：同时提交服饰与 3c 产品，enrichment
  响应中服饰返回双语，3c 仅返回 en，且 taxonomy 字段正确填充。
- 编译检查：`py_compile` 所有修改模块无语法错误。

【注意事项】
- 本次重构未改变现有服饰品类的行为，API 向后兼容（未指定 profile
  时仍按服饰处理）。
- 若后续需为某品类增加双语支持，只需修改注册表中的 `lang` 列表并补充
  prompt 模板，无需改动其他逻辑。

2026-04-09 15:00:17 +0800

2703b6ea refactor(indexer): 将 analysis_kinds 拆分为 enrichment_scopes + ... Browse Dir »

category_taxonomy_profile

- 原 analysis_kinds
  混用了“增强类型”（content/taxonomy）与“品类特定配置”，不利于扩展不同品类的
taxonomy 分析（如 3C、家居等）
- 新增 enrichment_scopes 参数：支持 generic（通用增强，产出
  qanchors/enriched_tags/enriched_attributes）和
category_taxonomy（品类增强，产出 enriched_taxonomy_attributes）
- 新增 category_taxonomy_profile 参数：指定品类增强使用哪套
  profile（当前内置 apparel），每套 profile 包含独立的
prompt、输出列定义、解析规则及缓存版本
- 保留 analysis_kinds 作为兼容别名，避免破坏现有调用方
- 重构内部 taxonomy 分析为 profile registry 模式：新增
  _get_taxonomy_schema(profile_name) 函数，根据 profile 动态返回对应的
AnalysisSchema
- 缓存 key 现在按“分析类型 + profile + schema 指纹 +
  输入字段哈希”隔离，确保不同品类、不同 prompt 版本自动失效
- 更新 API 文档及微服务接口文档，明确新参数语义与使用示例

技术细节：
- 修改入口：api/routes/indexer.py 中 enrich-content
  端点，解析新参数并向下传递
- 核心逻辑：indexer/product_enrich.py 中 enrich_products_batch 增加
  profile 参数；_process_batch_for_schema 根据 scope 和 profile 动态获取
schema
- 兼容层：若请求同时提供 analysis_kinds，则映射为
  enrichment_scopes（content→generic，taxonomy→category_taxonomy），category_taxonomy_profile
默认为 "apparel"
- 测试覆盖：新增 enrichment_scopes 组合、profile 切换及兼容模式测试

2026-04-09 13:53:36 +0800

5aaf0c7d feat(indexer): 完善 enriched_taxonomy_attributes 接口输出及缓存设计 ... Browse Dir »

- `/indexer/enrich-content` 路由`enriched_taxonomy_attributes` 与
  `enriched_attributes` 一并返回
- 新增请求参数 `analysis_kinds`（可选，默认 `["content",
  "taxonomy"]`），允许调用方按需选择内容分析类型，为后续扩展和成本控制预留空间
- 重构缓存策略：将 `content` 与 `taxonomy` 两类分析的缓存完全隔离，缓存
  key 包含 prompt 模板、表头、输出字段定义（即 schema
指纹），确保提示词或解析规则变更时自动失效
- 缓存 key 仅依赖真正参与 LLM
  输入的字段（`title`、`brief`、`description`），`image_url`、`tenant_id`、`spu_id`
不再污染缓存键，提高缓存命中率
- 更新 API
  文档（`docs/搜索API对接指南-05-索引接口（Indexer）.md`），说明新增参数与返回字段

技术细节：
- 路由层调整：在 `api/routes/indexer.py` 的 enrich-content 端点中，将
  `product_enrich.enrich_products_batch` 返回的
`enriched_taxonomy_attributes` 字段显式加入 HTTP 响应体
- `analysis_kinds` 参数透传至底层
  `enrich_products_batch`，支持按需跳过某一类分析（如仅需 taxonomy
时减少 LLM 调用）
- 缓存指纹计算位于 `product_enrich.py` 的 `_get_cache_key` 函数，对每种
  `AnalysisSchema` 独立生成；版本号通过 `schema.version` 或 prompt
内容哈希隐式包含
- 测试覆盖：新增 `analysis_kinds` 组合场景及缓存隔离测试

2026-04-09 13:09:14 +0800

08 Apr, 2026

2 commits

f27a8d90 ES文档维护 Browse Dir »

tangwang
2026-04-08 16:47:20 +0800

1fdab52d This change adjusts the BM25 parameters used by the combined query. ... Browse Dir »

Previously, both `b` and `k1` were set to `0.0`. The original intention
was to avoid two common issues in e-commerce search relevance:

1. Over-penalizing longer product titles
   In product search, a shorter title should not automatically rank
higher just because BM25 favors shorter fields. For example, for a query
like “遥控车”, a product whose title is simply “遥控车” is not
necessarily a better candidate than a product with a slightly longer but
more descriptive title. In practice, extremely short titles may even
indicate lower-quality catalog data.

2. Over-rewarding repeated occurrences of the same term
   For longer queries such as “遥控喷雾翻滚多功能车玩具车”, the default
BM25 behavior may give too much weight to a term that appears multiple
times (for example “遥控”), even when other important query terms such
as “喷雾” or “翻滚” are missing. This can cause products with repeated
partial matches to outrank products that actually cover more of the user
intent.

Setting both parameters to zero was an intentional way to suppress
length normalization and term-frequency amplification. However, after
introducing a `combined_fields` query, this configuration becomes too
aggressive. Since `combined_fields` scores multiple fields as a unified
relevance signal, completely disabling both effects may also remove
useful ranking information, especially when we still want documents
matching more query terms across fields to be distinguishable from
weaker matches.

This update therefore relaxes the previous setting and reintroduces a
controlled amount of BM25 normalization/scoring behavior. The goal is to
keep the original intent — avoiding short-title bias and excessive
repeated-term gain — while allowing the combined query to better
preserve meaningful relevance differences across candidates.

Expected effect:
- reduce the bias toward unnaturally short product titles
- limit score inflation caused by repeated occurrences of the same term
- improve ranking stability for `combined_fields` queries
- better reward candidates that cover more of the overall query intent,
  instead of those that only repeat a subset of terms

2026-04-08 14:39:54 +0800

07 Apr, 2026

2 commits

6e3e6770 suggest文档维护 Browse Dir »

tangwang
2026-04-07 22:14:59 +0800
e50924ed 1. tags -> enriched_tags ... Browse Dir »
```
2. issues文档
```
tangwang
2026-04-07 11:45:15 +0800

04 Apr, 2026

2 commits

441f049d 评测体系优化，以及 ... Browse Dir »
```
Exact Match
High Relevant
Low Relevant
Irrelevant

to

Fully Relevant
Mostly Relevant
Weakly Relevant
Irrelevant
```
tangwang
2026-04-04 22:14:42 +0800
f5da42e6 标注提示词优化 Browse Dir »

tangwang
2026-04-04 19:02:43 +0800

03 Apr, 2026

2 commits

ccbdf870 enriched_attributes.value字段参与搜索 Browse Dir »

tangwang
2026-04-03 21:11:50 +0800
639bee0a issues整理（评估框架&LTR日志准备&FM拟合效果初探） Browse Dir »

tangwang
2026-04-03 08:17:41 +0800

02 Apr, 2026

2 commits

41345271 文档更新 Browse Dir »

tangwang
2026-04-02 19:46:27 +0800

465f90e1 添加LTR数据收集 ... Browse Dir »

目前在54训练数据里面，拆分44条train + 10
test，训练集显著提升但是test上不及基线
作为基础设施保留，以后可以考虑扩大数据集进行使用

2026-04-02 16:20:45 +0800

01 Apr, 2026

3 commits

9df421ed 基于eval框架开始调参 Browse Dir »

tangwang
2026-04-01 20:05:22 +0800
42024409 评估框架-批量打标 Browse Dir »

tangwang
2026-04-01 16:57:58 +0800
a345b01f eval framework Browse Dir »

tangwang
2026-04-01 10:00:45 +0800

31 Mar, 2026

4 commits

d172c259 eval框架 Browse Dir »

tangwang
2026-03-31 23:27:53 +0800
3ac1f8d1 评估标准优化 Browse Dir »

tangwang
2026-03-31 22:48:50 +0800
7b8d9e1a 评估框架的启动脚本 Browse Dir »

tangwang
2026-03-31 19:36:47 +0800
1c5366f5 query分析性能优化 Browse Dir »

tangwang
2026-03-31 12:11:40 +0800

30 Mar, 2026

3 commits

d350861f 索引结构修改 Browse Dir »

tangwang
2026-03-30 18:59:50 +0800
36cf0ef9 es索引结果修改 Browse Dir »

tangwang
2026-03-30 16:20:24 +0800

c3425429 在以下文件中完成精排/融合清理工作：[search/rerank_client.py](/data/saas-search/search/rerank_clie… ... Browse Dir »

…nt.py)、[search/searcher.py](/data/saas-search/search/searcher.py)、[frontend/static/js/app.js](/data/saas-search/frontend/static/js/app.js)
以及
[tests/test_rerank_client.py](/data/saas-search/tests/test_rerank_client.py)。

主要修复内容如下：
- 精排现依据融合阶段得分进行排序，而非仅依据原始的 `fine_score`。
- 最终重排不再依赖独立的 `fine_scores`
  数组（该数组在精排排序后可能产生同步偏差），而是直接读取命中结果附带的
`_fine_score`。
-
精排与最终重排现均通过同一计算路径生成融合调试信息，该路径同时也决定实际排序结果，从而保证记录逻辑与生产逻辑保持一致。
-
调试信息载荷更加清晰：精排和最终重排阶段都会暴露融合输入/因子以及规范的
`fusion_summary`，前端界面现在会渲染该摘要信息。

主要问题：阶段逻辑重复且存在并行的数据通道：一个通道用于计算排序，另一个通道用于组装调试字段，还有第三个通道用于传递辅助数组。这造成了潜在的差异风险。本次重构通过将阶段得分作为唯一事实来源，并让调试/前端直接消费其输出而非事后重构，降低了该风险。

验证结果：
- `./.venv/bin/python -m pytest -q tests/test_rerank_client.py
  tests/test_search_rerank_window.py`
- `./.venv/bin/python -m py_compile search/rerank_client.py
  search/searcher.py`

结果：`22 passed`。

当前的主流程：

1. Query 解析
2. ES 召回
3. 粗排：只用 ES 内部文本/KNN 信号
4. 款式 SKU 选择 + title suffix
5. 精排：轻量 reranker + 文本/KNN 融合
6. 最终 rerank：重 reranker + fine score + 文本/KNN 融合
7. 分页、补全字段、格式化返回

主控代码在 [searcher.py](/data/saas-search/search/searcher.py)，打分与
rerank 细节在
[rerank_client.py](/data/saas-search/search/rerank_client.py)，配置定义在
[schema.py](/data/saas-search/config/schema.py) 和
[config.yaml](/data/saas-search/config/config.yaml)。

**先看入口怎么决定走哪条路**
在 [searcher.py:348](/data/saas-search/search/searcher.py#L348)
开始，`search()` 先读租户语言、开关、窗口大小。
关键判断在 [searcher.py:364](/data/saas-search/search/searcher.py#L364)
到 [searcher.py:372](/data/saas-search/search/searcher.py#L372)：

- `rerank_window` 现在是 80，见
  [config.yaml:256](/data/saas-search/config/config.yaml#L256)
- `coarse_rank.input_window` 是 700，`output_window` 是 240，见
  [config.yaml:231](/data/saas-search/config/config.yaml#L231)
- `fine_rank.input_window` 是 240，`output_window` 是 80，见
  [config.yaml:245](/data/saas-search/config/config.yaml#L245)

所以如果请求满足 `from_ + size <= rerank_window`，就进入完整漏斗：
- ES 实际取前 `700`
- 粗排后留 `240`
- 精排后留 `80`
- 最终 rerank 也只处理这 `80`
- 最后再做分页切片

如果请求页超出 80，就不走后面的多阶段漏斗，直接按 ES 原逻辑返回。

2026-03-30 12:16:05 +0800

27 Mar, 2026

8 commits

daa2690b 漏斗参数调优&呈现优化 Browse Dir »

tangwang
2026-03-27 23:00:16 +0800

8c8b9d84 ES 拉取 coarse_rank.input_window 条 -> 粗排按 text/knn 融合裁到 ... Browse Dir »

coarse_rank.output_window -> 再做 SKU 选择和 title suffix ->
精排调用轻量 reranker 裁到 fine_rank.output_window -> 最终重排调用现有
reranker，并在最终融合里加入 fine_score。同时把 reranker client/provider
改成了按 service_profile 选不同 service_url，这样 fine/final
可以共用同一套服务代码，只起不同实例。

2026-03-27 17:56:04 +0800

ceaf6d03 召回限定：must条件补充主干词命中逻辑。baseline的主干词提取方法。 ... Browse Dir »
```
TODO-keywords限定-done.txt
```
tangwang
2026-03-27 16:20:01 +0800
ed13851c 图片文本两个knn召回相关参数配置 Browse Dir »

tangwang
2026-03-27 11:58:00 +0800
1681a135 image_embeddin sizeg配置跟服务统一到768 Browse Dir »

tangwang
2026-03-27 11:26:54 +0800
5a01af3c 多模态hashkey调整：1. 加入model_name,2.text/url转hash Browse Dir »

tangwang
2026-03-27 10:36:59 +0800
6d71d8e0 多模态模型配置 Browse Dir »

tangwang
2026-03-27 08:58:47 +0800
74116f05 jina-reranker-v3性能测试和参数优化 Browse Dir »

tangwang
2026-03-27 07:42:10 +0800

26 Mar, 2026

2 commits

93be98cb 清理过时的文档 Browse Dir »

tangwang
2026-03-26 22:18:31 +0800
7a013ca7 多模态文本向量服务ok Browse Dir »

tangwang
2026-03-26 20:46:24 +0800

24 Mar, 2026

2 commits

2efad04b 意图匹配的性能优化： ... Browse Dir »

上面一版实现，性能上完全无法接受。因此进行了一轮策略简化

style_sku_prepare_hits阶段耗时太长。请根据需求，思考优化的方法，给出性能优化的方案。
1.
_select_by_embedding，有缓存吗，option_value的值是有限的，之前已经算过的，就不用再算了。不仅仅是embedding相似的结果，整个option_value的匹配结果，是有包含、还是没包含，相似度多少，都不用重新计算。比如之前已经有一个sku的某个属性值叫做“卡其色”，已经算出来是否文本匹配了，那么不需要再去做文本匹配。如果已经算出来向量的相似度，那么不需要再去取向量以及计算相似度。
2. 匹配可以适当的优化：
匹配流程简化：
1）找到第一个文本匹配的，如果有直接匹配成功。不需要考虑匹配多个的情况。
2）如果全部都没有匹配，那么进行embedding筛选。

匹配规则：
option_name的匹配，直接看规范化后的option_name是不是意图维度的泛化词之一（比如颜色、color、colour），如果没有匹配的，现在应该是把所有维度都算上，这样匹配成本和比较成本太高了，去掉这些逻辑，这种情况不需要加后缀、不需要选择sku。
ption_value的匹配。意图检测的时候，有匹配的query中的命中的词，这个词被包含在属性值中，那么就算匹配。属性值被包含在query（包括翻译文本）中，也算匹配。提高匹配的覆盖率。

3.
这一阶段得到sku选择的结果即可（选中的sku的id，也可以为空值表示没找到匹配成功的，这种情况不需要拼接title后缀给重排输入），但是不用着急做image_url的替换和sku的置顶。等最后填充的时候判断有选中sku的时候直接做替换和置顶即可。
请你思考如何进行设计，提高性能的时候不带来复杂度的提升，可以适当的重构以降低修改后的代码行数。
@search/sku_intent_selector.py @query/style_intent.py

2026-03-24 15:58:18 +0800

8ae95af0 1. Stage Timings: 为每个阶段耗时补充起止时间戳。 ... Browse Dir »
```
2， 漏了一些重要的stage，比如「款式意图 SKU
预筛选（StyleSkuSelector.prepare_hits）」，补上这个stage
```
tangwang
2026-03-24 09:05:47 +0800

23 Mar, 2026

1 commit

cda1cd62 意图分析&应用 baseline Browse Dir »

tangwang
2026-03-23 22:35:20 +0800