31 Mar, 2026

9 commits


30 Mar, 2026

11 commits

  • tangwang
     
  • tangwang
     
  • must里面的两个combined_fields查询,boost分别设置为2和0.6,和其他查询条件一起,都放到should里面,设置minimum_should_match==1
    2.
    如果keywords_query跟combined_fields主查询的query一样,那么不需要再添加了
    tangwang
     
  • tangwang
     
  • tangwang
     
  • tangwang
     
  • 一、tags字段改支持多语言:
    spu表tags字段,跟title走一样的翻译逻辑,填入原始语言、zh、en。
    
    检查以下字段,都跟title一样走翻译逻辑
    title
    keywords
    tags
    brief
    description
    vendor
    category_path
    category_name_text
    
    二、/indexer/enrich-content接口的修改
    1.
    请求参数,把language去掉,因为我返回的内容直接对应索引结构,不用你做处理了,因此不需要指定语言,降低耦合。
    2. 返回 enriched_attributes enriched_tags
       qanchors三个字段,按原始内容填入。
    3. enriched_tags是本次新增的,注意区别于tags字段。tags字段来源于mysql
       spu表,enriched_tags是本接口返回的。
    
    三、specifications的value,需要翻译,也是需要填中英文:
    {
      "specifications": [
        {
          "sku_id": "sku-red-s",
          "name": "color",
          "value_keyword": "красный",
          "value_text": {
            "zh": "红色",
            "en": "red"
          }
        }
      ]
    }
    tangwang
     
  • tangwang
     
  • tangwang
     
  • tangwang
     
  • …nt.py)、[search/searcher.py](/data/saas-search/search/searcher.py)、[frontend/static/js/app.js](/data/saas-search/frontend/static/js/app.js)
    以及
    [tests/test_rerank_client.py](/data/saas-search/tests/test_rerank_client.py)。
    
    主要修复内容如下:
    - 精排现依据融合阶段得分进行排序,而非仅依据原始的 `fine_score`。
    - 最终重排不再依赖独立的 `fine_scores`
      数组(该数组在精排排序后可能产生同步偏差),而是直接读取命中结果附带的
    `_fine_score`。
    -
    精排与最终重排现均通过同一计算路径生成融合调试信息,该路径同时也决定实际排序结果,从而保证记录逻辑与生产逻辑保持一致。
    -
    调试信息载荷更加清晰:精排和最终重排阶段都会暴露融合输入/因子以及规范的
    `fusion_summary`,前端界面现在会渲染该摘要信息。
    
    主要问题:阶段逻辑重复且存在并行的数据通道:一个通道用于计算排序,另一个通道用于组装调试字段,还有第三个通道用于传递辅助数组。这造成了潜在的差异风险。本次重构通过将阶段得分作为唯一事实来源,并让调试/前端直接消费其输出而非事后重构,降低了该风险。
    
    验证结果:
    - `./.venv/bin/python -m pytest -q tests/test_rerank_client.py
      tests/test_search_rerank_window.py`
    - `./.venv/bin/python -m py_compile search/rerank_client.py
      search/searcher.py`
    
    结果:`22 passed`。
    
    当前的主流程:
    
    1. Query 解析
    2. ES 召回
    3. 粗排:只用 ES 内部文本/KNN 信号
    4. 款式 SKU 选择 + title suffix
    5. 精排:轻量 reranker + 文本/KNN 融合
    6. 最终 rerank:重 reranker + fine score + 文本/KNN 融合
    7. 分页、补全字段、格式化返回
    
    主控代码在 [searcher.py](/data/saas-search/search/searcher.py),打分与
    rerank 细节在
    [rerank_client.py](/data/saas-search/search/rerank_client.py),配置定义在
    [schema.py](/data/saas-search/config/schema.py) 和
    [config.yaml](/data/saas-search/config/config.yaml)。
    
    **先看入口怎么决定走哪条路**
    在 [searcher.py:348](/data/saas-search/search/searcher.py#L348)
    开始,`search()` 先读租户语言、开关、窗口大小。
    关键判断在 [searcher.py:364](/data/saas-search/search/searcher.py#L364)
    到 [searcher.py:372](/data/saas-search/search/searcher.py#L372):
    
    - `rerank_window` 现在是 80,见
      [config.yaml:256](/data/saas-search/config/config.yaml#L256)
    - `coarse_rank.input_window` 是 700,`output_window` 是 240,见
      [config.yaml:231](/data/saas-search/config/config.yaml#L231)
    - `fine_rank.input_window` 是 240,`output_window` 是 80,见
      [config.yaml:245](/data/saas-search/config/config.yaml#L245)
    
    所以如果请求满足 `from_ + size <= rerank_window`,就进入完整漏斗:
    - ES 实际取前 `700`
    - 粗排后留 `240`
    - 精排后留 `80`
    - 最终 rerank 也只处理这 `80`
    - 最后再做分页切片
    
    如果请求页超出 80,就不走后面的多阶段漏斗,直接按 ES 原逻辑返回。
    tangwang
     

27 Mar, 2026

11 commits


26 Mar, 2026

6 commits


25 Mar, 2026

3 commits

  • (之前因为错误将attention方法该回到TRITON_ATTN,性能相比于之前的vllm版本更差。但是那个错误是能解决的。已修复保持FLASHINFER)
    tangwang
     
  • 报错),并允许通过配置或环境变量让 vLLM 自行选择 attention。 -- 临时版本
    tangwang
     
  • 这两个配置、四种情况:
    backend:  qwen3_vllm | qwen3_vllm_score
    instruction_format: compact | standard
    
    调用 python scripts/benchmark_reranker_random_titles.py
    100,200,400,600,800,1000 --repeat 5
    产出性能测试报告
    
    平均延迟(ms,客户端 POST /rerank 墙钟,--seed 99)
    backend	instruction_format	n=100	n=200	n=400	n=600	n=800
    n=1000
    qwen3_vllm	compact	213.5	418.0	861.4	1263.4	1744.3	2162.2
    qwen3_vllm	standard	254.9	475.4	909.7	1353.2	1912.5
    2406.7
    qwen3_vllm_score	compact	239.2	480.2	966.2	1433.5	1937.2
    2428.4
    qwen3_vllm_score	standard	299.6	591.8	1178.9	1773.7
    2341.6	2931.7
    归纳: 在本机 T4、当前 vLLM 与上述
    YAML(max_model_len=160、infer_batch_size=100 等)下,两种后端都是
    compact 快于 standard;整体最快为 qwen3_vllm + compact(n=1000 ≈
    2.16 s),最慢为 qwen3_vllm_score + standard(≈ 2.93 s)。其他 GPU /
    vLLM 版本下排序可能变化。
    tangwang