Commit d387e05d86a013812e5425ac5bc34a1a5f4eee8c

Authored by tangwang
1 parent d31c7f65

Rerank 后端对比 topn=386重新测试

Showing 2 changed files with 45 additions and 0 deletions   Show diff stats
docs/性能测试报告.md
... ... @@ -381,3 +381,46 @@ done
381 381 说明:
382 382 - 本轮对比基于当前实现:`dashscope_rerank` 支持 `top_n`(本次取 `30`),`qwen3_vllm` 当前仍按全量 docs 评分。
383 383 - 若后续为本地模型实现 `top_n` 局部重排能力,需要重新对比后再最终定版。
  384 +
  385 +## 14. Rerank 后端对比(top_n=386 重测)
  386 +
  387 +目标:
  388 +- 在“返回条数不裁剪(`top_n=386`)”口径下,对比 `qwen3_vllm` 与 DashScope 云后端
  389 +- 补充 `Avg(ms)` 与整体平均耗时,便于容量规划
  390 +
  391 +测试口径(两端一致):
  392 +- query:固定 `wireless mouse`
  393 +- docs:每次请求固定 `386` 条
  394 +- 构造方式:从 `1000` 词池随机采样;每条 doc 句长随机 `15-40`
  395 +- `top_n`:`386`
  396 +- 并发:`1 / 5 / 10 / 20`
  397 +- 每档时长:`20s`
  398 +
  399 +执行文件(有效):
  400 +- vLLM:`perf_reports/2026-03-12/rerank_backend_compare/vllm_topn386_round1_valid.json`
  401 +- Cloud:`perf_reports/2026-03-12/rerank_backend_compare/cloud_topn386_round1_valid_fixedkey.json`
  402 +
  403 +说明:
  404 +- `cloud_topn386_round1_valid.json` 为无效结果(上游 `401 invalid_api_key` 导致服务端返回 `500`),已在修正 key 后重跑得到 `cloud_topn386_round1_valid_fixedkey.json`。
  405 +
  406 +### 14.1 分并发结果(含平均耗时)
  407 +
  408 +| 并发 | vLLM RPS | Cloud RPS | vLLM Avg(ms) | Cloud Avg(ms) | vLLM P95(ms) | Cloud P95(ms) |
  409 +|---:|---:|---:|---:|---:|---:|---:|
  410 +| 1 | 0.61 | 0.15 | 1625.86 | 6749.21 | 2104.40 | 7800.55 |
  411 +| 5 | 0.61 | 0.60 | 8109.97 | 6343.14 | 9571.81 | 11059.64 |
  412 +| 10 | 0.65 | 1.60 | 15378.46 | 5418.25 | 15624.69 | 9865.85 |
  413 +| 20 | 0.66 | 2.48 | 30185.74 | 6090.37 | 30421.31 | 10685.54 |
  414 +
  415 +### 14.2 整体平均耗时(加权)
  416 +
  417 +| 后端 | 汇总RPS | 加权平均耗时(ms) | 成功率 |
  418 +|---|---:|---:|---:|
  419 +| vLLM | 0.64 | 15501.03 | 100.0% |
  420 +| Cloud | 1.30 | 5932.08 | 100.0% |
  421 +
  422 +### 14.3 结论
  423 +
  424 +- 单并发(`c=1`)下,`vLLM` 延迟优势明显。
  425 +- 在并发 `10/20` 下,Cloud 吞吐显著高于 `vLLM`,且平均耗时/尾延迟更低。
  426 +- 电商在线重排(存在并发)场景,当前更适合优先 Cloud;离线或低并发场景可保留 `vLLM`。
... ...
docs/搜索API对接指南.md
... ... @@ -1788,8 +1788,10 @@ curl -X POST "http://localhost:6007/rerank" \
1788 1788 -d '{
1789 1789 "query": "玩具 芭比",
1790 1790 "docs": ["12PCS 6 Types of Dolls with Bottles", "纯棉T恤 短袖"],
  1791 + "top_n":386,
1791 1792 "normalize": true
1792 1793 }'
  1794 +
1793 1795 ```
1794 1796  
1795 1797 #### 7.2.2 `GET /health` — 健康检查
... ...