09 Apr, 2026

1 commit

  • 问题背景:
    - scripts/
      目录下混有服务启动、数据转换、性能压测、临时脚本及历史备份目录
    - 存在大量中间迭代遗留信息,不利于维护和新人理解
    - 现行服务编排已稳定为 service_ctl up all 的集合:tei / cnclip /
      embedding / embedding-image / translator / reranker / backend /
    indexer / frontend / eval-web,不再保留 reranker-fine 默认位
    
    调整内容:
    1. 根 scripts/ 收敛为运行、运维、环境、数据处理脚本,并新增
       scripts/README.md 说明文档
    2. 性能/压测/调参脚本整体迁至 benchmarks/ 目录,同步更新
       benchmarks/README.md
    3. 人工试跑脚本迁至 tests/manual/ 目录,同步更新 tests/manual/README.md
    4. 删除明确过时内容:
       - scripts/indexer__old_2025_11/
       - scripts/start.sh
       - scripts/install_server_deps.sh
    5. 同步修正以下文档中的路径及过时描述:
       - 根目录 README.md
       - 性能报告相关文档
       - reranker/translation 模块文档
    
    技术细节:
    - 性能测试不放常规 tests/
      的原因:这类脚本依赖真实服务、GPU、模型和环境噪声,不适合作为稳定回归门禁;benchmarks/
    更贴合其定位
    - tests/manual/ 仅存放需要人工启动依赖、手工观察结果的接口试跑脚本
    - 所有迁移后的 Python 脚本已通过 py_compile 语法校验
    - 所有迁移后的 Shell 脚本已通过 bash -n 语法校验
    
    校验结果:
    - py_compile: 通过
    - bash -n: 通过
    tangwang
     

26 Mar, 2026

1 commit


25 Mar, 2026

2 commits

  • (之前因为错误将attention方法该回到TRITON_ATTN,性能相比于之前的vllm版本更差。但是那个错误是能解决的。已修复保持FLASHINFER)
    tangwang
     
  • 这两个配置、四种情况:
    backend:  qwen3_vllm | qwen3_vllm_score
    instruction_format: compact | standard
    
    调用 python scripts/benchmark_reranker_random_titles.py
    100,200,400,600,800,1000 --repeat 5
    产出性能测试报告
    
    平均延迟(ms,客户端 POST /rerank 墙钟,--seed 99)
    backend	instruction_format	n=100	n=200	n=400	n=600	n=800
    n=1000
    qwen3_vllm	compact	213.5	418.0	861.4	1263.4	1744.3	2162.2
    qwen3_vllm	standard	254.9	475.4	909.7	1353.2	1912.5
    2406.7
    qwen3_vllm_score	compact	239.2	480.2	966.2	1433.5	1937.2
    2428.4
    qwen3_vllm_score	standard	299.6	591.8	1178.9	1773.7
    2341.6	2931.7
    归纳: 在本机 T4、当前 vLLM 与上述
    YAML(max_model_len=160、infer_batch_size=100 等)下,两种后端都是
    compact 快于 standard;整体最快为 qwen3_vllm + compact(n=1000 ≈
    2.16 s),最慢为 qwen3_vllm_score + standard(≈ 2.93 s)。其他 GPU /
    vLLM 版本下排序可能变化。
    tangwang