Commit d387e05d86a013812e5425ac5bc34a1a5f4eee8c
1 parent
d31c7f65
Rerank 后端对比 topn=386重新测试
Showing
2 changed files
with
45 additions
and
0 deletions
Show diff stats
docs/性能测试报告.md
| ... | ... | @@ -381,3 +381,46 @@ done |
| 381 | 381 | 说明: |
| 382 | 382 | - 本轮对比基于当前实现:`dashscope_rerank` 支持 `top_n`(本次取 `30`),`qwen3_vllm` 当前仍按全量 docs 评分。 |
| 383 | 383 | - 若后续为本地模型实现 `top_n` 局部重排能力,需要重新对比后再最终定版。 |
| 384 | + | |
| 385 | +## 14. Rerank 后端对比(top_n=386 重测) | |
| 386 | + | |
| 387 | +目标: | |
| 388 | +- 在“返回条数不裁剪(`top_n=386`)”口径下,对比 `qwen3_vllm` 与 DashScope 云后端 | |
| 389 | +- 补充 `Avg(ms)` 与整体平均耗时,便于容量规划 | |
| 390 | + | |
| 391 | +测试口径(两端一致): | |
| 392 | +- query:固定 `wireless mouse` | |
| 393 | +- docs:每次请求固定 `386` 条 | |
| 394 | +- 构造方式:从 `1000` 词池随机采样;每条 doc 句长随机 `15-40` | |
| 395 | +- `top_n`:`386` | |
| 396 | +- 并发:`1 / 5 / 10 / 20` | |
| 397 | +- 每档时长:`20s` | |
| 398 | + | |
| 399 | +执行文件(有效): | |
| 400 | +- vLLM:`perf_reports/2026-03-12/rerank_backend_compare/vllm_topn386_round1_valid.json` | |
| 401 | +- Cloud:`perf_reports/2026-03-12/rerank_backend_compare/cloud_topn386_round1_valid_fixedkey.json` | |
| 402 | + | |
| 403 | +说明: | |
| 404 | +- `cloud_topn386_round1_valid.json` 为无效结果(上游 `401 invalid_api_key` 导致服务端返回 `500`),已在修正 key 后重跑得到 `cloud_topn386_round1_valid_fixedkey.json`。 | |
| 405 | + | |
| 406 | +### 14.1 分并发结果(含平均耗时) | |
| 407 | + | |
| 408 | +| 并发 | vLLM RPS | Cloud RPS | vLLM Avg(ms) | Cloud Avg(ms) | vLLM P95(ms) | Cloud P95(ms) | | |
| 409 | +|---:|---:|---:|---:|---:|---:|---:| | |
| 410 | +| 1 | 0.61 | 0.15 | 1625.86 | 6749.21 | 2104.40 | 7800.55 | | |
| 411 | +| 5 | 0.61 | 0.60 | 8109.97 | 6343.14 | 9571.81 | 11059.64 | | |
| 412 | +| 10 | 0.65 | 1.60 | 15378.46 | 5418.25 | 15624.69 | 9865.85 | | |
| 413 | +| 20 | 0.66 | 2.48 | 30185.74 | 6090.37 | 30421.31 | 10685.54 | | |
| 414 | + | |
| 415 | +### 14.2 整体平均耗时(加权) | |
| 416 | + | |
| 417 | +| 后端 | 汇总RPS | 加权平均耗时(ms) | 成功率 | | |
| 418 | +|---|---:|---:|---:| | |
| 419 | +| vLLM | 0.64 | 15501.03 | 100.0% | | |
| 420 | +| Cloud | 1.30 | 5932.08 | 100.0% | | |
| 421 | + | |
| 422 | +### 14.3 结论 | |
| 423 | + | |
| 424 | +- 单并发(`c=1`)下,`vLLM` 延迟优势明显。 | |
| 425 | +- 在并发 `10/20` 下,Cloud 吞吐显著高于 `vLLM`,且平均耗时/尾延迟更低。 | |
| 426 | +- 电商在线重排(存在并发)场景,当前更适合优先 Cloud;离线或低并发场景可保留 `vLLM`。 | ... | ... |
docs/搜索API对接指南.md
| ... | ... | @@ -1788,8 +1788,10 @@ curl -X POST "http://localhost:6007/rerank" \ |
| 1788 | 1788 | -d '{ |
| 1789 | 1789 | "query": "玩具 芭比", |
| 1790 | 1790 | "docs": ["12PCS 6 Types of Dolls with Bottles", "纯棉T恤 短袖"], |
| 1791 | + "top_n":386, | |
| 1791 | 1792 | "normalize": true |
| 1792 | 1793 | }' |
| 1794 | + | |
| 1793 | 1795 | ``` |
| 1794 | 1796 | |
| 1795 | 1797 | #### 7.2.2 `GET /health` — 健康检查 | ... | ... |