ai-saas / saas-search | GitLab

25 Mar, 2026

6 commits

b0972ff9 qwen3_vllm_score attention TRITON_ATTN -> FLASHINFER ... Browse File »

（之前因为错误将attention方法该回到TRITON_ATTN，性能相比于之前的vllm版本更差。但是那个错误是能解决的。已修复保持FLASHINFER）

2026-03-25 22:59:43 +0800

540fb5af 添加了可关闭的开关：保留默认行为（避免 T4 上 FA2 ... Browse File »
```
报错），并允许通过配置或环境变量让 vLLM 自行选择 attention。 -- 临时版本
```
tangwang
2026-03-25 20:39:40 +0800
4823f463 qwen3_vllm_score + 独立 0.18 环境 Browse File »

tangwang
2026-03-25 17:24:00 +0800
9de5ef49 qwen3_vllm_score : task="score" +（原版 + hf_overrides）或 HuggingFace 上已转好的 seq-cls 模型。generate() Browse File »

tangwang
2026-03-25 16:11:12 +0800
5c21a485 qwen3-reranker-0.6b-gguf Browse File »

tangwang
2026-03-25 15:04:48 +0800
3d508beb reranker-4b-gguf Browse File »

tangwang
2026-03-25 12:23:14 +0800

11 Mar, 2026

1 commit

7fbca0d7 启动脚本优化 Browse File »

tangwang
2026-03-11 19:23:57 +0800

09 Mar, 2026

1 commit

07cf5a93 START_EMBEDDING=1 START_TRANSLATOR=1 START_RERANKER=1 START_TEI=1 ... Browse File »
```
CNCLIP_DEVICE=cuda TEI_USE_GPU=1 ./scripts/service_ctl.sh start
搜索后端+indexer+测试前段+4个微服务 跑通
```
tangwang
2026-03-09 23:29:07 +0800

07 Mar, 2026

1 commit

d1d356f8 脚本优化 Browse File »

tangwang
2026-03-07 11:48:59 +0800