02 Apr, 2026

2 commits


01 Apr, 2026

16 commits


31 Mar, 2026

11 commits


30 Mar, 2026

1 commit


27 Mar, 2026

4 commits


26 Mar, 2026

3 commits


25 Mar, 2026

3 commits

  • (之前因为错误将attention方法该回到TRITON_ATTN,性能相比于之前的vllm版本更差。但是那个错误是能解决的。已修复保持FLASHINFER)
    tangwang
     
  • 报错),并允许通过配置或环境变量让 vLLM 自行选择 attention。 -- 临时版本
    tangwang
     
  • 这两个配置、四种情况:
    backend:  qwen3_vllm | qwen3_vllm_score
    instruction_format: compact | standard
    
    调用 python scripts/benchmark_reranker_random_titles.py
    100,200,400,600,800,1000 --repeat 5
    产出性能测试报告
    
    平均延迟(ms,客户端 POST /rerank 墙钟,--seed 99)
    backend	instruction_format	n=100	n=200	n=400	n=600	n=800
    n=1000
    qwen3_vllm	compact	213.5	418.0	861.4	1263.4	1744.3	2162.2
    qwen3_vllm	standard	254.9	475.4	909.7	1353.2	1912.5
    2406.7
    qwen3_vllm_score	compact	239.2	480.2	966.2	1433.5	1937.2
    2428.4
    qwen3_vllm_score	standard	299.6	591.8	1178.9	1773.7
    2341.6	2931.7
    归纳: 在本机 T4、当前 vLLM 与上述
    YAML(max_model_len=160、infer_batch_size=100 等)下,两种后端都是
    compact 快于 standard;整体最快为 qwen3_vllm + compact(n=1000 ≈
    2.16 s),最慢为 qwen3_vllm_score + standard(≈ 2.93 s)。其他 GPU /
    vLLM 版本下排序可能变化。
    tangwang