rerank_dashscope_perf_usage.md 5.04 KB

下面是一份简洁但完整的使用说明,适合直接放在 README 或脚本注释里。


rerank_dashscope_perf.py 使用说明

该脚本用于对 DashScope qwen3-rerank 接口进行并发性能测试, 测试接口:

POST https://dashscope.aliyuncs.com/compatible-api/v1/reranks

脚本支持:

  • 并发压测
  • 固定或动态生成 documents
  • 自定义 doc 数量(例如 386)
  • 输出详细 latency / RPS 统计
  • 多并发梯度测试(如 1,5,10,20)

一、环境准备

1 安装依赖

脚本依赖 httpx

pip install httpx

如果使用虚拟环境:

.venv/bin/pip install httpx

2 设置 DashScope API Key

export DASHSCOPE_API_KEY=你的key

也可以通过参数指定:

--api-key xxx

二、基本用法

最常见的压测方式:

python rerank_dashscope_perf.py \
  --duration 20 \
  --concurrency-list 1,5,10,20 \
  --timeout 90 \
  --rerank-dynamic-docs \
  --rerank-doc-count 386 \
  --rerank-vocab-size 1000 \
  --rerank-sentence-min-words 15 \
  --rerank-sentence-max-words 40 \
  --rerank-query "wireless mouse" \
  --rerank-seed 20260312 \
  --rerank-top-n 386 \
  --output perf_result.json

含义:

参数 说明
duration 每个并发测试持续时间(秒)
concurrency-list 并发列表
timeout 单请求超时时间
rerank-dynamic-docs 启用动态 doc 生成
rerank-doc-count 每个请求 doc 数量
rerank-top-n 返回 top_n
output 保存结果 JSON

三、测试模式

脚本有两种请求模式:


1 静态请求模式(默认)

如果不使用 --rerank-dynamic-docs,请求 payload 固定为:

{
  "model": "qwen3-rerank",
  "documents": [
    "文本排序模型广泛用于搜索引擎和推荐系统中,它们根据文本相关性对候选文本进行排序",
    "量子计算是计算科学的一个前沿领域",
    "预训练语言模型的发展给文本排序模型带来了新的进展"
  ],
  "query": "什么是文本排序模型",
  "top_n": 2
}

适合:

  • 验证接口
  • 小规模测试

2 动态 documents 模式(推荐)

启用参数:

--rerank-dynamic-docs

脚本会:

  • 每个请求生成 N 条 documents
  • 每条 doc 是 随机词拼接句子
  • 每个请求 内容不同

示例 doc:

alce bafi kolo dede hobe anma cigi lofi asbe erko kaci molo fadi helo
mace biro aldi kolo gace hoin doka lale cebo fafa ineri kasi hobe lomo
gifi beme koha laci anfi celi dore ioce kobo hila mefi arce enbo hega

优点:

  • 不依赖真实语料
  • 更接近真实 token 分布
  • 压测稳定

四、386 documents 压测示例

与你的测试方式一致:

python rerank_dashscope_perf.py \
  --duration 20 \
  --concurrency-list 1,5,10,20 \
  --timeout 90 \
  --rerank-dynamic-docs \
  --rerank-doc-count 386 \
  --rerank-vocab-size 1000 \
  --rerank-sentence-min-words 15 \
  --rerank-sentence-max-words 40 \
  --rerank-query "wireless mouse" \
  --rerank-seed 20260312 \
  --rerank-top-n 386

每个请求:

query: wireless mouse
documents: 386条
每条doc长度: 15~40词

五、输出结果示例

终端输出:

[1/4] running rerank_dashscope @ concurrency=1 ...

=== Scenario: rerank_dashscope @ concurrency=1 ===
requests=84 success=84 fail=0 success_rate=100.0% rps=4.2
latency(ms): avg=230 p50=220 p90=260 p95=280 p99=310 max=340
status_codes: {200: 84}

字段说明:

指标 说明
requests 总请求数
success 成功请求
fail 失败请求
success_rate 成功率
rps 吞吐量
p50/p90/p95/p99 延迟分位
max 最大延迟

六、JSON 报告

如果指定:

--output perf_result.json

会生成报告:

{
  "results": [
    {
      "concurrency": 1,
      "throughput_rps": 4.2,
      "latency_ms": {
        "avg": 230,
        "p95": 280
      }
    }
  ]
}

适合:

  • 性能对比
  • 画图
  • 压测记录

七、常见参数

参数 默认值 说明
--duration 20 单并发测试时间
--concurrency-list 1,5,10,20 并发梯度
--timeout 90 请求超时
--rerank-doc-count 386 doc数量
--rerank-vocab-size 1000 词表大小
--rerank-sentence-min-words 15 doc最小长度
--rerank-sentence-max-words 40 doc最大长度
--rerank-top-n 386 返回top_n

八、推荐压测方式

推荐测试:

docs = 386
query = wireless mouse
concurrency = 1,5,10,20
duration = 20~60s

即可得到:

  • latency 曲线
  • RPS
  • 并发极限