From d387e05d86a013812e5425ac5bc34a1a5f4eee8c Mon Sep 17 00:00:00 2001 From: tangwang Date: Thu, 12 Mar 2026 14:04:21 +0800 Subject: [PATCH] Rerank 后端对比 topn=386重新测试 --- docs/性能测试报告.md | 43 +++++++++++++++++++++++++++++++++++++++++++ docs/搜索API对接指南.md | 2 ++ 2 files changed, 45 insertions(+), 0 deletions(-) diff --git a/docs/性能测试报告.md b/docs/性能测试报告.md index 7f60505..efdb2fc 100644 --- a/docs/性能测试报告.md +++ b/docs/性能测试报告.md @@ -381,3 +381,46 @@ done 说明: - 本轮对比基于当前实现:`dashscope_rerank` 支持 `top_n`(本次取 `30`),`qwen3_vllm` 当前仍按全量 docs 评分。 - 若后续为本地模型实现 `top_n` 局部重排能力,需要重新对比后再最终定版。 + +## 14. Rerank 后端对比(top_n=386 重测) + +目标: +- 在“返回条数不裁剪(`top_n=386`)”口径下,对比 `qwen3_vllm` 与 DashScope 云后端 +- 补充 `Avg(ms)` 与整体平均耗时,便于容量规划 + +测试口径(两端一致): +- query:固定 `wireless mouse` +- docs:每次请求固定 `386` 条 +- 构造方式:从 `1000` 词池随机采样;每条 doc 句长随机 `15-40` +- `top_n`:`386` +- 并发:`1 / 5 / 10 / 20` +- 每档时长:`20s` + +执行文件(有效): +- vLLM:`perf_reports/2026-03-12/rerank_backend_compare/vllm_topn386_round1_valid.json` +- Cloud:`perf_reports/2026-03-12/rerank_backend_compare/cloud_topn386_round1_valid_fixedkey.json` + +说明: +- `cloud_topn386_round1_valid.json` 为无效结果(上游 `401 invalid_api_key` 导致服务端返回 `500`),已在修正 key 后重跑得到 `cloud_topn386_round1_valid_fixedkey.json`。 + +### 14.1 分并发结果(含平均耗时) + +| 并发 | vLLM RPS | Cloud RPS | vLLM Avg(ms) | Cloud Avg(ms) | vLLM P95(ms) | Cloud P95(ms) | +|---:|---:|---:|---:|---:|---:|---:| +| 1 | 0.61 | 0.15 | 1625.86 | 6749.21 | 2104.40 | 7800.55 | +| 5 | 0.61 | 0.60 | 8109.97 | 6343.14 | 9571.81 | 11059.64 | +| 10 | 0.65 | 1.60 | 15378.46 | 5418.25 | 15624.69 | 9865.85 | +| 20 | 0.66 | 2.48 | 30185.74 | 6090.37 | 30421.31 | 10685.54 | + +### 14.2 整体平均耗时(加权) + +| 后端 | 汇总RPS | 加权平均耗时(ms) | 成功率 | +|---|---:|---:|---:| +| vLLM | 0.64 | 15501.03 | 100.0% | +| Cloud | 1.30 | 5932.08 | 100.0% | + +### 14.3 结论 + +- 单并发(`c=1`)下,`vLLM` 延迟优势明显。 +- 在并发 `10/20` 下,Cloud 吞吐显著高于 `vLLM`,且平均耗时/尾延迟更低。 +- 电商在线重排(存在并发)场景,当前更适合优先 Cloud;离线或低并发场景可保留 `vLLM`。 diff --git a/docs/搜索API对接指南.md b/docs/搜索API对接指南.md index c3e9c68..a74c575 100644 --- a/docs/搜索API对接指南.md +++ b/docs/搜索API对接指南.md @@ -1788,8 +1788,10 @@ curl -X POST "http://localhost:6007/rerank" \ -d '{ "query": "玩具 芭比", "docs": ["12PCS 6 Types of Dolls with Bottles", "纯棉T恤 短袖"], + "top_n":386, "normalize": true }' + ``` #### 7.2.2 `GET /health` — 健康检查 -- libgit2 0.21.2