ai-saas / saas-search

09 Apr, 2026

1 commit

3abbc95a 重构(scripts): 整理scripts目录，按现架构分类并迁移性能/手动测试脚本 ... Browse Dir »

问题背景：
- scripts/
  目录下混有服务启动、数据转换、性能压测、临时脚本及历史备份目录
- 存在大量中间迭代遗留信息，不利于维护和新人理解
- 现行服务编排已稳定为 service_ctl up all 的集合：tei / cnclip /
  embedding / embedding-image / translator / reranker / backend /
indexer / frontend / eval-web，不再保留 reranker-fine 默认位

调整内容：
1. 根 scripts/ 收敛为运行、运维、环境、数据处理脚本，并新增
   scripts/README.md 说明文档
2. 性能/压测/调参脚本整体迁至 benchmarks/ 目录，同步更新
   benchmarks/README.md
3. 人工试跑脚本迁至 tests/manual/ 目录，同步更新 tests/manual/README.md
4. 删除明确过时内容：
   - scripts/indexer__old_2025_11/
   - scripts/start.sh
   - scripts/install_server_deps.sh
5. 同步修正以下文档中的路径及过时描述：
   - 根目录 README.md
   - 性能报告相关文档
   - reranker/translation 模块文档

技术细节：
- 性能测试不放常规 tests/
  的原因：这类脚本依赖真实服务、GPU、模型和环境噪声，不适合作为稳定回归门禁；benchmarks/
更贴合其定位
- tests/manual/ 仅存放需要人工启动依赖、手工观察结果的接口试跑脚本
- 所有迁移后的 Python 脚本已通过 py_compile 语法校验
- 所有迁移后的 Shell 脚本已通过 bash -n 语法校验

校验结果：
- py_compile: 通过
- bash -n: 通过

2026-04-09 23:36:06 +0800

26 Mar, 2026

1 commit

e38dc1be 融合公式参数调整、以及展示信息优化 Browse Dir »

tangwang
2026-03-26 11:28:04 +0800

25 Mar, 2026

2 commits

b0972ff9 qwen3_vllm_score attention TRITON_ATTN -> FLASHINFER ... Browse Dir »

（之前因为错误将attention方法该回到TRITON_ATTN，性能相比于之前的vllm版本更差。但是那个错误是能解决的。已修复保持FLASHINFER）

2026-03-25 22:59:43 +0800

52ea6529 性能测试： ... Browse Dir »

这两个配置、四种情况：
backend:  qwen3_vllm | qwen3_vllm_score
instruction_format: compact | standard

调用 python scripts/benchmark_reranker_random_titles.py
100,200,400,600,800,1000 --repeat 5
产出性能测试报告

平均延迟（ms，客户端 POST /rerank 墙钟，--seed 99）
backend	instruction_format	n=100	n=200	n=400	n=600	n=800
n=1000
qwen3_vllm	compact	213.5	418.0	861.4	1263.4	1744.3	2162.2
qwen3_vllm	standard	254.9	475.4	909.7	1353.2	1912.5
2406.7
qwen3_vllm_score	compact	239.2	480.2	966.2	1433.5	1937.2
2428.4
qwen3_vllm_score	standard	299.6	591.8	1178.9	1773.7
2341.6	2931.7
归纳： 在本机 T4、当前 vLLM 与上述
YAML（max_model_len=160、infer_batch_size=100 等）下，两种后端都是
compact 快于 standard；整体最快为 qwen3_vllm + compact（n=1000 ≈
2.16 s），最慢为 qwen3_vllm_score + standard（≈ 2.93 s）。其他 GPU /
vLLM 版本下排序可能变化。

2026-03-25 19:15:56 +0800