rerank_dashscope_perf_usage.md
5.04 KB
下面是一份简洁但完整的使用说明,适合直接放在 README 或脚本注释里。
rerank_dashscope_perf.py 使用说明
该脚本用于对 DashScope qwen3-rerank 接口进行并发性能测试,
测试接口:
POST https://dashscope.aliyuncs.com/compatible-api/v1/reranks
脚本支持:
- 并发压测
- 固定或动态生成 documents
- 自定义 doc 数量(例如 386)
- 输出详细 latency / RPS 统计
- 多并发梯度测试(如 1,5,10,20)
一、环境准备
1 安装依赖
脚本依赖 httpx:
pip install httpx
如果使用虚拟环境:
.venv/bin/pip install httpx
2 设置 DashScope API Key
export DASHSCOPE_API_KEY=你的key
也可以通过参数指定:
--api-key xxx
二、基本用法
最常见的压测方式:
python rerank_dashscope_perf.py \
--duration 20 \
--concurrency-list 1,5,10,20 \
--timeout 90 \
--rerank-dynamic-docs \
--rerank-doc-count 386 \
--rerank-vocab-size 1000 \
--rerank-sentence-min-words 15 \
--rerank-sentence-max-words 40 \
--rerank-query "wireless mouse" \
--rerank-seed 20260312 \
--rerank-top-n 386 \
--output perf_result.json
含义:
| 参数 | 说明 |
|---|---|
| duration | 每个并发测试持续时间(秒) |
| concurrency-list | 并发列表 |
| timeout | 单请求超时时间 |
| rerank-dynamic-docs | 启用动态 doc 生成 |
| rerank-doc-count | 每个请求 doc 数量 |
| rerank-top-n | 返回 top_n |
| output | 保存结果 JSON |
三、测试模式
脚本有两种请求模式:
1 静态请求模式(默认)
如果不使用 --rerank-dynamic-docs,请求 payload 固定为:
{
"model": "qwen3-rerank",
"documents": [
"文本排序模型广泛用于搜索引擎和推荐系统中,它们根据文本相关性对候选文本进行排序",
"量子计算是计算科学的一个前沿领域",
"预训练语言模型的发展给文本排序模型带来了新的进展"
],
"query": "什么是文本排序模型",
"top_n": 2
}
适合:
- 验证接口
- 小规模测试
2 动态 documents 模式(推荐)
启用参数:
--rerank-dynamic-docs
脚本会:
- 每个请求生成 N 条 documents
- 每条 doc 是 随机词拼接句子
- 每个请求 内容不同
示例 doc:
alce bafi kolo dede hobe anma cigi lofi asbe erko kaci molo fadi helo
mace biro aldi kolo gace hoin doka lale cebo fafa ineri kasi hobe lomo
gifi beme koha laci anfi celi dore ioce kobo hila mefi arce enbo hega
优点:
- 不依赖真实语料
- 更接近真实 token 分布
- 压测稳定
四、386 documents 压测示例
与你的测试方式一致:
python rerank_dashscope_perf.py \
--duration 20 \
--concurrency-list 1,5,10,20 \
--timeout 90 \
--rerank-dynamic-docs \
--rerank-doc-count 386 \
--rerank-vocab-size 1000 \
--rerank-sentence-min-words 15 \
--rerank-sentence-max-words 40 \
--rerank-query "wireless mouse" \
--rerank-seed 20260312 \
--rerank-top-n 386
每个请求:
query: wireless mouse
documents: 386条
每条doc长度: 15~40词
五、输出结果示例
终端输出:
[1/4] running rerank_dashscope @ concurrency=1 ...
=== Scenario: rerank_dashscope @ concurrency=1 ===
requests=84 success=84 fail=0 success_rate=100.0% rps=4.2
latency(ms): avg=230 p50=220 p90=260 p95=280 p99=310 max=340
status_codes: {200: 84}
字段说明:
| 指标 | 说明 |
|---|---|
| requests | 总请求数 |
| success | 成功请求 |
| fail | 失败请求 |
| success_rate | 成功率 |
| rps | 吞吐量 |
| p50/p90/p95/p99 | 延迟分位 |
| max | 最大延迟 |
六、JSON 报告
如果指定:
--output perf_result.json
会生成报告:
{
"results": [
{
"concurrency": 1,
"throughput_rps": 4.2,
"latency_ms": {
"avg": 230,
"p95": 280
}
}
]
}
适合:
- 性能对比
- 画图
- 压测记录
七、常见参数
| 参数 | 默认值 | 说明 |
|---|---|---|
| --duration | 20 | 单并发测试时间 |
| --concurrency-list | 1,5,10,20 | 并发梯度 |
| --timeout | 90 | 请求超时 |
| --rerank-doc-count | 386 | doc数量 |
| --rerank-vocab-size | 1000 | 词表大小 |
| --rerank-sentence-min-words | 15 | doc最小长度 |
| --rerank-sentence-max-words | 40 | doc最大长度 |
| --rerank-top-n | 386 | 返回top_n |
八、推荐压测方式
推荐测试:
docs = 386
query = wireless mouse
concurrency = 1,5,10,20
duration = 20~60s
即可得到:
- latency 曲线
- RPS
- 并发极限