ai-saas / saas-search

07 Apr, 2026

1 commit

e50924ed 1. tags -> enriched_tags ... Browse Dir »
```
2. issues文档
```
tangwang
2026-04-07 11:45:15 +0800

27 Mar, 2026

2 commits

daa2690b 漏斗参数调优&呈现优化 Browse Dir »

tangwang
2026-03-27 23:00:16 +0800
74116f05 jina-reranker-v3性能测试和参数优化 Browse Dir »

tangwang
2026-03-27 07:42:10 +0800

26 Mar, 2026

3 commits

971a0851 补充reranker-jina，探索listwize的优势 Browse Dir »

tangwang
2026-03-26 22:47:40 +0800
93be98cb 清理过时的文档 Browse Dir »

tangwang
2026-03-26 22:18:31 +0800
f86c5fee reranker性能参数脚本放在：tests/reranker_performance/ Browse Dir »

tangwang
2026-03-26 16:22:41 +0800

25 Mar, 2026

8 commits

b0972ff9 qwen3_vllm_score attention TRITON_ATTN -> FLASHINFER ... Browse Dir »

（之前因为错误将attention方法该回到TRITON_ATTN，性能相比于之前的vllm版本更差。但是那个错误是能解决的。已修复保持FLASHINFER）

2026-03-25 22:59:43 +0800

540fb5af 添加了可关闭的开关：保留默认行为（避免 T4 上 FA2 ... Browse Dir »
```
报错），并允许通过配置或环境变量让 vLLM 自行选择 attention。 -- 临时版本
```
tangwang
2026-03-25 20:39:40 +0800

52ea6529 性能测试： ... Browse Dir »

这两个配置、四种情况：
backend:  qwen3_vllm | qwen3_vllm_score
instruction_format: compact | standard

调用 python scripts/benchmark_reranker_random_titles.py
100,200,400,600,800,1000 --repeat 5
产出性能测试报告

平均延迟（ms，客户端 POST /rerank 墙钟，--seed 99）
backend	instruction_format	n=100	n=200	n=400	n=600	n=800
n=1000
qwen3_vllm	compact	213.5	418.0	861.4	1263.4	1744.3	2162.2
qwen3_vllm	standard	254.9	475.4	909.7	1353.2	1912.5
2406.7
qwen3_vllm_score	compact	239.2	480.2	966.2	1433.5	1937.2
2428.4
qwen3_vllm_score	standard	299.6	591.8	1178.9	1773.7
2341.6	2931.7
归纳： 在本机 T4、当前 vLLM 与上述
YAML（max_model_len=160、infer_batch_size=100 等）下，两种后端都是
compact 快于 standard；整体最快为 qwen3_vllm + compact（n=1000 ≈
2.16 s），最慢为 qwen3_vllm_score + standard（≈ 2.93 s）。其他 GPU /
vLLM 版本下排序可能变化。

2026-03-25 19:15:56 +0800

749d78c8 支持 reranker精简instruction Browse Dir »

tangwang
2026-03-25 18:14:10 +0800
4823f463 qwen3_vllm_score + 独立 0.18 环境 Browse Dir »

tangwang
2026-03-25 17:24:00 +0800
9de5ef49 qwen3_vllm_score : task="score" +（原版 + hf_overrides）或 HuggingFace 上已转好的 seq-cls 模型。generate() Browse Dir »

tangwang
2026-03-25 16:11:12 +0800
5c21a485 qwen3-reranker-0.6b-gguf Browse Dir »

tangwang
2026-03-25 15:04:48 +0800
3d508beb reranker-4b-gguf Browse Dir »

tangwang
2026-03-25 12:23:14 +0800

21 Mar, 2026

2 commits

fb973d19 configs Browse Dir »

tangwang
2026-03-21 22:11:41 +0800
00c8ddb9 suggest rank optimize Browse Dir »

tangwang
2026-03-21 19:41:23 +0800

19 Mar, 2026

1 commit

86d8358b config optimize Browse Dir »

tangwang
2026-03-19 23:04:11 +0800

17 Mar, 2026

1 commit

3d588bef embeddings Browse Dir »

tangwang
2026-03-17 13:53:50 +0800

13 Mar, 2026

2 commits

af827ce9 rerank Browse Dir »

tangwang
2026-03-13 23:21:51 +0800
985752f5 1. 前端调试功能 ... Browse Dir »
```
2. 翻译限速 对应处理（qwen-mt限速）
```
tangwang
2026-03-13 16:15:06 +0800

12 Mar, 2026

4 commits

149dad2b add rerank-cloud-perf-study Browse Dir »

tangwang
2026-03-12 22:08:23 +0800
0d3e73ba rerank mini batch Browse Dir »

tangwang
2026-03-12 19:57:44 +0800
d31c7f65 补充云服务reranker Browse Dir »

tangwang
2026-03-12 12:53:08 +0800
a99e62ba 记录各阶段耗时 Browse Dir »

tangwang
2026-03-12 11:42:49 +0800

11 Mar, 2026

4 commits

28e57bb1 日志体系优化 Browse Dir »

tangwang
2026-03-11 23:04:17 +0800

af7ee060 service_ctl 简化为“显式服务清单”模式 ... Browse Dir »

去掉 START_* 控制变量逻辑，默认只启动核心服务 backend/indexer/frontend。
可选服务改为显式命令：./scripts/service_ctl.sh start embedding
translator reranker tei cnclip。
统一 translator 端口读取为 TRANSLATION_PORT（移除 TRANSLATOR_PORT
兼容）。
保留未知服务强校验。
关键文件：service_ctl.sh
“重名/歧义”修复
frontend 端口命名统一：FRONTEND_PORT 为主，PORT 仅后备。
start_frontend.sh 显式导出 PORT="${FRONTEND_PORT}"，避免配置了
FRONTEND_PORT 但服务仍跑 6003 的问题。
文件：start_frontend.sh、frontend_server.py、env_config.py
日志/PID 命名治理继续收口
统一规则继续落地为 logs/<service>.log、logs/<service>.pid。
cnclip 保持 logs/cnclip.log + logs/cnclip.pid。
文件：service_ctl.sh、start_cnclip_service.sh、stop_cnclip_service.sh
backend/indexer 启动风格统一补齐相关项
frontend/translator 也对齐到 set -euo pipefail，并用 exec 直启主进程。
文件：start_frontend.sh、start_translator.sh、start_backend.sh、start_indexer.sh
legacy 入口清理
删除：start_servers.py、stop_reranker.sh、stop_translator.sh。
reranker 停止逻辑并入 service_ctl（含 VLLM::EngineCore 清理）。
benchmark 脚本改为统一入口：service_ctl.sh stop reranker。
文件：benchmark_reranker_1000docs.sh

2026-03-11 22:39:39 +0800

9f5994b4 reranker Browse Dir »

tangwang
2026-03-11 14:26:34 +0800

efd435cf tei性能调优： ... Browse Dir »

./scripts/start_tei_service.sh
START_TEI=0 ./scripts/service_ctl.sh restart embedding

curl -sS -X POST "http://127.0.0.1:6005/embed/text" \
  -H "Content-Type: application/json" \
  -d '["芭比娃娃 儿童玩具", "纯棉T恤 短袖"]'

2026-03-11 13:12:44 +0800

10 Mar, 2026

1 commit

80955935 Reranker 补充 qwen3_transformers Browse Dir »

tangwang
2026-03-10 09:38:34 +0800

09 Mar, 2026

2 commits

bc089b43 refactor(reranker): 对齐 Qwen3-Reranker 官方实现 ... Browse Dir »

config/config.yaml:
- qwen3_vllm: enable_prefix_caching true（启用前缀缓存）
- qwen3_vllm: enforce_eager false（允许 CUDA graph 加速）

reranker/backends/qwen3_vllm.py:
- TokensPrompt 导入改为 vllm.inputs.data（官方路径，兼容性更好）
- 缺失 token 时使用 logprob=-10，与官方一致（原为 1e-10）
- 使用批量 apply_chat_template 替代逐条调用，提升效率
- logprobs 访问改为官方模式：token not in last 时 -10，否则 last[token].logprob

其他: docs、embeddings、README 等文档更新

Made-with: Cursor

2026-03-09 23:48:19 +0800

07cf5a93 START_EMBEDDING=1 START_TRANSLATOR=1 START_RERANKER=1 START_TEI=1 ... Browse Dir »
```
CNCLIP_DEVICE=cuda TEI_USE_GPU=1 ./scripts/service_ctl.sh start
搜索后端+indexer+测试前段+4个微服务 跑通
```
tangwang
2026-03-09 23:29:07 +0800

08 Mar, 2026

2 commits

0e66a315 docs Browse Dir »

tangwang
2026-03-08 23:02:25 +0800
701ae503 docs Browse Dir »

tangwang
2026-03-08 14:30:07 +0800

07 Mar, 2026

2 commits

42e3aea6 tidy Browse Dir »

tangwang
2026-03-07 19:44:25 +0800
d1d356f8 脚本优化 Browse Dir »

tangwang
2026-03-07 11:48:59 +0800

06 Mar, 2026

1 commit

a7920e17 项目名称和部署路径修改 Browse Dir »

tangwang
2026-03-06 17:32:37 +0800

05 Feb, 2026

1 commit

ff32d894 rerank Browse Dir »

tangwang
2026-02-05 16:13:46 +0800

04 Feb, 2026

1 commit

d90e7428 补充重排 Browse Dir »

tangwang
2026-02-04 19:48:05 +0800