ai-saas / saas-search

01 Apr, 2026

6 commits

dedd31c5 1. 搜索 recall 池「1 分」条数（DEFAULT_SEARCH_RECALL_TOP_K） ... Browse Dir »

scripts/evaluation/eval_framework/constants.py：500 → 200
Rebuild 里 rank <= recall_n 的 rerank_score: 1.0 仍按该 K 生效。
2. LLM 批次上下限
最少批次：DEFAULT_REBUILD_MIN_LLM_BATCHES 20 → 10
最多批次：仍为 40（未改）
3. 提前结束条件（_annotate_rebuild_batches）
在已跑满 min_batches 之后，对每个批次：

本批无 Exact（exact_n == 0），且满足其一即视为 bad batch：
irrelevant_ratio >= 0.94
或 (irrelevant + Low Relevant) / n >= 0.96（弱相关用 RELEVANCE_LOW）
连续 2 个 bad batch 则 early stop（原先是连续 3 次、irrelevant >
0.92）。

批次日志里增加了 low_ratio、irrelevant_plus_low_ratio；rebuild
元数据里增加了 rebuild_irrel_low_combined_stop_ratio。

4. CLI
--search-recall-top-k 说明改为默认 200
--rebuild-min-batches 说明改为默认 10
--rebuild-irrelevant-stop-ratio / --rebuild-irrelevant-stop-streak
说明与新逻辑一致
新增 --rebuild-irrel-low-combined-stop-ratio（默认 0.96）

2026-04-01 11:22:59 +0800

a3734f13 eval任务美国地区不支持batch调用，改为在线调用 Browse Dir »

tangwang
2026-04-01 10:40:32 +0800
a345b01f eval framework Browse Dir »

tangwang
2026-04-01 10:00:45 +0800
46d94a05 评估标准修改 Browse Dir »

tangwang
2026-04-01 09:40:39 +0800
bdb65283 标注框架批量标注 Browse Dir »

tangwang
2026-04-01 09:34:12 +0800
167f33b4 eval框架前端 Browse Dir »

tangwang
2026-04-01 07:40:04 +0800

31 Mar, 2026

11 commits

d172c259 eval框架 Browse Dir »

tangwang
2026-03-31 23:27:53 +0800
3ac1f8d1 评估标准优化 Browse Dir »

tangwang
2026-03-31 22:48:50 +0800
3984ec64 evalution 标注标准优化 ... Browse Dir »
```
Made-with: Cursor
```
tangwang
2026-03-31 20:54:22 +0800
c81b0fc1 scripts/evaluation/eval_framework Browse Dir »

tangwang
2026-03-31 19:54:24 +0800
7b8d9e1a 评估框架的启动脚本 Browse Dir »

tangwang
2026-03-31 19:36:47 +0800
f8e7cb97 evalution framework Browse Dir »

tangwang
2026-03-31 18:53:54 +0800
881d338b 评估框架 Browse Dir »

tangwang
2026-03-31 18:25:19 +0800
432d1c88 评估框架 Browse Dir »

tangwang
2026-03-31 17:12:01 +0800
267920e5 eval docs Browse Dir »

tangwang
2026-03-31 13:54:01 +0800
3b35f139 search evalution Browse Dir »

tangwang
2026-03-31 13:25:18 +0800
1c5366f5 query分析性能优化 Browse Dir »

tangwang
2026-03-31 12:11:40 +0800

30 Mar, 2026

1 commit

36cf0ef9 es索引结果修改 Browse Dir »

tangwang
2026-03-30 16:20:24 +0800

27 Mar, 2026

4 commits

daa2690b 漏斗参数调优&呈现优化 Browse Dir »

tangwang
2026-03-27 23:00:16 +0800

8c8b9d84 ES 拉取 coarse_rank.input_window 条 -> 粗排按 text/knn 融合裁到 ... Browse Dir »

coarse_rank.output_window -> 再做 SKU 选择和 title suffix ->
精排调用轻量 reranker 裁到 fine_rank.output_window -> 最终重排调用现有
reranker，并在最终融合里加入 fine_score。同时把 reranker client/provider
改成了按 service_profile 选不同 service_url，这样 fine/final
可以共用同一套服务代码，只起不同实例。

2026-03-27 17:56:04 +0800

5a01af3c 多模态hashkey调整：1. 加入model_name,2.text/url转hash Browse Dir »

tangwang
2026-03-27 10:36:59 +0800
6d71d8e0 多模态模型配置 Browse Dir »

tangwang
2026-03-27 08:58:47 +0800

26 Mar, 2026

3 commits

971a0851 补充reranker-jina，探索listwize的优势 Browse Dir »

tangwang
2026-03-26 22:47:40 +0800
7a013ca7 多模态文本向量服务ok Browse Dir »

tangwang
2026-03-26 20:46:24 +0800
d47889b9 ES 字段查询工具 scripts/es_debug_search.py Browse Dir »

tangwang
2026-03-26 19:46:37 +0800

25 Mar, 2026

7 commits

b0972ff9 qwen3_vllm_score attention TRITON_ATTN -> FLASHINFER ... Browse Dir »

（之前因为错误将attention方法该回到TRITON_ATTN，性能相比于之前的vllm版本更差。但是那个错误是能解决的。已修复保持FLASHINFER）

2026-03-25 22:59:43 +0800

540fb5af 添加了可关闭的开关：保留默认行为（避免 T4 上 FA2 ... Browse Dir »
```
报错），并允许通过配置或环境变量让 vLLM 自行选择 attention。 -- 临时版本
```
tangwang
2026-03-25 20:39:40 +0800

52ea6529 性能测试： ... Browse Dir »

这两个配置、四种情况：
backend:  qwen3_vllm | qwen3_vllm_score
instruction_format: compact | standard

调用 python scripts/benchmark_reranker_random_titles.py
100,200,400,600,800,1000 --repeat 5
产出性能测试报告

平均延迟（ms，客户端 POST /rerank 墙钟，--seed 99）
backend	instruction_format	n=100	n=200	n=400	n=600	n=800
n=1000
qwen3_vllm	compact	213.5	418.0	861.4	1263.4	1744.3	2162.2
qwen3_vllm	standard	254.9	475.4	909.7	1353.2	1912.5
2406.7
qwen3_vllm_score	compact	239.2	480.2	966.2	1433.5	1937.2
2428.4
qwen3_vllm_score	standard	299.6	591.8	1178.9	1773.7
2341.6	2931.7
归纳： 在本机 T4、当前 vLLM 与上述
YAML（max_model_len=160、infer_batch_size=100 等）下，两种后端都是
compact 快于 standard；整体最快为 qwen3_vllm + compact（n=1000 ≈
2.16 s），最慢为 qwen3_vllm_score + standard（≈ 2.93 s）。其他 GPU /
vLLM 版本下排序可能变化。

2026-03-25 19:15:56 +0800

4823f463 qwen3_vllm_score + 独立 0.18 环境 Browse Dir »

tangwang
2026-03-25 17:24:00 +0800
9de5ef49 qwen3_vllm_score : task="score" +（原版 + hf_overrides）或 HuggingFace 上已转好的 seq-cls 模型。generate() Browse Dir »

tangwang
2026-03-25 16:11:12 +0800
5c21a485 qwen3-reranker-0.6b-gguf Browse Dir »

tangwang
2026-03-25 15:04:48 +0800
3d508beb reranker-4b-gguf Browse Dir »

tangwang
2026-03-25 12:23:14 +0800

22 Mar, 2026

1 commit

0536222c query parser优化 Browse Dir »

tangwang
2026-03-22 18:30:05 +0800

21 Mar, 2026

2 commits

00c8ddb9 suggest rank optimize Browse Dir »

tangwang
2026-03-21 19:41:23 +0800
e8443ea0 docs Browse Dir »

tangwang
2026-03-21 14:56:12 +0800

20 Mar, 2026

2 commits

41856690 embedding logs Browse Dir »

tangwang
2026-03-20 21:49:07 +0800
b754fd41 图片向量化支持优先级参数 Browse Dir »

tangwang
2026-03-20 11:59:57 +0800

19 Mar, 2026

3 commits

af03fdef embedding模块代码整理 Browse Dir »

tangwang
2026-03-19 14:24:35 +0800
5bac9649 文本 embedding 与图片 embedding 已拆分为两个独立进程 / 端口 Browse Dir »

tangwang
2026-03-19 13:54:05 +0800

7214c2e7 mplemented** ... Browse Dir »

- Text and image embedding are now split into separate
  services/processes, while still keeping a single replica as requested.
The split lives in
[embeddings/server.py](/data/saas-search/embeddings/server.py#L112),
[config/services_config.py](/data/saas-search/config/services_config.py#L68),
[providers/embedding.py](/data/saas-search/providers/embedding.py#L27),
and the start scripts
[scripts/start_embedding_service.sh](/data/saas-search/scripts/start_embedding_service.sh#L36),
[scripts/start_embedding_text_service.sh](/data/saas-search/scripts/start_embedding_text_service.sh),
[scripts/start_embedding_image_service.sh](/data/saas-search/scripts/start_embedding_image_service.sh).
- Independent admission control is in place now: text and image have
  separate inflight limits, and image can be kept much stricter than
text. The request handling, reject path, `/health`, and `/ready` are in
[embeddings/server.py](/data/saas-search/embeddings/server.py#L613),
[embeddings/server.py](/data/saas-search/embeddings/server.py#L786), and
[embeddings/server.py](/data/saas-search/embeddings/server.py#L1028).
- I checked the Redis embedding cache. It did exist, but there was a
  real flaw: cache keys did not distinguish `normalize=true` from
`normalize=false`. I fixed that in
[embeddings/cache_keys.py](/data/saas-search/embeddings/cache_keys.py#L6),
and both text and image now use the same normalize-aware keying. I also
added service-side BF16 cache hits that short-circuit before the model
lane, so repeated requests no longer get throttled behind image
inference.

**What This Means**
- Image pressure no longer blocks text, because they are on different
  ports/processes.
- Repeated text/image requests now return from Redis without consuming
  model capacity.
- Over-capacity requests are rejected quickly instead of sitting
  blocked.
- I did not add a load balancer or multi-replica HA, per your GPU
  constraint. I also did not build Grafana/Prometheus dashboards in this
pass, but `/health` now exposes the metrics needed to wire them.

**Validation**
- Tests passed: `.venv/bin/python -m pytest -q
  tests/test_embedding_pipeline.py
tests/test_embedding_service_limits.py` -> `10 passed`
- Stress test tool updates are in
  [scripts/perf_api_benchmark.py](/data/saas-search/scripts/perf_api_benchmark.py#L155)
- Fresh benchmark on split text service `6105`: 535 requests / 3s, 100%
  success, `174.56 rps`, avg `88.48 ms`
- Fresh benchmark on split image service `6108`: 1213 requests / 3s,
  100% success, `403.32 rps`, avg `9.64 ms`
- Live health after the run showed cache hits and non-zero cache-hit
  latency accounting:
  - text `avg_latency_ms=4.251`
  - image `avg_latency_ms=1.462`

2026-03-19 13:21:01 +0800