ai-saas / saas-search

27 Mar, 2026

3 commits

6d71d8e0 多模态模型配置 Browse File »

tangwang
2026-03-27 08:58:47 +0800

24edc208 修改_extract_combined_knn_score相关的代码以及配置， ... Browse File »

重排融合：之前有knn的配置bias和exponential。现在，文本和图片的embedding相似需要融合，融合方式是dis_max，因此需要配置：
1）各自的权重和tie_breaker
2）整个向量方面的权重（bias和exponential）

2026-03-27 08:33:16 +0800

74116f05 jina-reranker-v3性能测试和参数优化 Browse File »

tangwang
2026-03-27 07:42:10 +0800

26 Mar, 2026

4 commits

971a0851 补充reranker-jina，探索listwize的优势 Browse File »

tangwang
2026-03-26 22:47:40 +0800
93be98cb 清理过时的文档 Browse File »

tangwang
2026-03-26 22:18:31 +0800
f86c5fee reranker性能参数脚本放在：tests/reranker_performance/ Browse File »

tangwang
2026-03-26 16:22:41 +0800
e38dc1be 融合公式参数调整、以及展示信息优化 Browse File »

tangwang
2026-03-26 11:28:04 +0800

25 Mar, 2026

10 commits

b0972ff9 qwen3_vllm_score attention TRITON_ATTN -> FLASHINFER ... Browse File »

（之前因为错误将attention方法该回到TRITON_ATTN，性能相比于之前的vllm版本更差。但是那个错误是能解决的。已修复保持FLASHINFER）

2026-03-25 22:59:43 +0800

540fb5af 添加了可关闭的开关：保留默认行为（避免 T4 上 FA2 ... Browse File »
```
报错），并允许通过配置或环境变量让 vLLM 自行选择 attention。 -- 临时版本
```
tangwang
2026-03-25 20:39:40 +0800

52ea6529 性能测试： ... Browse File »

这两个配置、四种情况：
backend:  qwen3_vllm | qwen3_vllm_score
instruction_format: compact | standard

调用 python scripts/benchmark_reranker_random_titles.py
100,200,400,600,800,1000 --repeat 5
产出性能测试报告

平均延迟（ms，客户端 POST /rerank 墙钟，--seed 99）
backend	instruction_format	n=100	n=200	n=400	n=600	n=800
n=1000
qwen3_vllm	compact	213.5	418.0	861.4	1263.4	1744.3	2162.2
qwen3_vllm	standard	254.9	475.4	909.7	1353.2	1912.5
2406.7
qwen3_vllm_score	compact	239.2	480.2	966.2	1433.5	1937.2
2428.4
qwen3_vllm_score	standard	299.6	591.8	1178.9	1773.7
2341.6	2931.7
归纳： 在本机 T4、当前 vLLM 与上述
YAML（max_model_len=160、infer_batch_size=100 等）下，两种后端都是
compact 快于 standard；整体最快为 qwen3_vllm + compact（n=1000 ≈
2.16 s），最慢为 qwen3_vllm_score + standard（≈ 2.93 s）。其他 GPU /
vLLM 版本下排序可能变化。

2026-03-25 19:15:56 +0800

749d78c8 支持 reranker精简instruction Browse File »

tangwang
2026-03-25 18:14:10 +0800
4823f463 qwen3_vllm_score + 独立 0.18 环境 Browse File »

tangwang
2026-03-25 17:24:00 +0800
9de5ef49 qwen3_vllm_score : task="score" +（原版 + hf_overrides）或 HuggingFace 上已转好的 seq-cls 模型。generate() Browse File »

tangwang
2026-03-25 16:11:12 +0800
5c21a485 qwen3-reranker-0.6b-gguf Browse File »

tangwang
2026-03-25 15:04:48 +0800
3d508beb reranker-4b-gguf Browse File »

tangwang
2026-03-25 12:23:14 +0800
87cacb1b 融合公式优化。加入意图匹配因子 Browse File »

tangwang
2026-03-25 10:58:56 +0800
837d5d76 sku筛选匹配规则优化，按 token/短语序列匹配，fixbadcase Browse File »

tangwang
2026-03-25 10:41:36 +0800

24 Mar, 2026

3 commits

74fdf9bd 1. ... Browse File »

加了一个过滤/降权词典，query中有独立分词匹配到指定的触发词，将过滤带某些分词的商品（比如fitted/修身，过滤宽松、loose、relaxed、baggy,slouchy等商品）
2. reranker的query使用翻译后的

2026-03-24 22:54:38 +0800

6adbf18a reranker提示词优化 Browse File »

tangwang
2026-03-24 20:47:52 +0800
814e352b 乘法公式配置化 Browse File »

tangwang
2026-03-24 12:44:11 +0800

23 Mar, 2026

5 commits

cda1cd62 意图分析&应用 baseline Browse File »

tangwang
2026-03-23 22:35:20 +0800
dad3c867 configs Browse File »

tangwang
2026-03-23 19:59:49 +0800
445496cd fix last up: 每个翻译结果的检索表达式，单个multimatch -> ... Browse File »
```
combined_fields+best_field+phrase_boost
```
tangwang
2026-03-23 15:20:29 +0800

e756b18e 重构了文本召回构建器，现在每个 base_query / base_query_trans_* ... Browse File »

子句都变成了一个带有以下结构的命名布尔查询：

must：combined_fields

should：加权后的 best_fields 和 phrase 子句

主要改动位于
search/es_query_builder.py，但此次调整沿用了现有语言路由设计，并未引入一次性分支。额外的
should 子句权重现在通过
config/schema.py、config/loader.py、search/searcher.py 以及
config/config.yaml 进行配置驱动，从而保持结构的集中管理。

2026-03-23 14:45:06 +0800

69881ecb 相关性调参、enrich内容解析优化 Browse File »

tangwang
2026-03-23 09:02:19 +0800

22 Mar, 2026

4 commits

8140e942 translator model priority Browse File »

tangwang
2026-03-22 22:30:14 +0800
86d0e83d query翻译，根据源语言是否在索引语言中区分配置 Browse File »

tangwang
2026-03-22 18:53:53 +0800
0536222c query parser优化 Browse File »

tangwang
2026-03-22 18:30:05 +0800
ef5baa86 混杂语言处理 Browse File »

tangwang
2026-03-22 14:16:39 +0800

21 Mar, 2026

2 commits

fb973d19 configs Browse File »

tangwang
2026-03-21 22:11:41 +0800
00c8ddb9 suggest rank optimize Browse File »

tangwang
2026-03-21 19:41:23 +0800

20 Mar, 2026

4 commits

a7cc9078 sku排序 Browse File »

tangwang
2026-03-20 17:02:19 +0800
e874eb50 docs Browse File »

tangwang
2026-03-20 16:12:22 +0800
1556989b query翻译等待超时逻辑 Browse File »

tangwang
2026-03-20 14:29:57 +0800
b754fd41 图片向量化支持优先级参数 Browse File »

tangwang
2026-03-20 11:59:57 +0800

19 Mar, 2026

5 commits

41f0b2e9 product_enrich支持并发 Browse File »

tangwang
2026-03-19 23:32:53 +0800
86d8358b config optimize Browse File »

tangwang
2026-03-19 23:04:11 +0800
77bfa7e3 query translate Browse File »

tangwang
2026-03-19 17:22:14 +0800
af03fdef embedding模块代码整理 Browse File »

tangwang
2026-03-19 14:24:35 +0800

7214c2e7 mplemented** ... Browse File »

- Text and image embedding are now split into separate
  services/processes, while still keeping a single replica as requested.
The split lives in
[embeddings/server.py](/data/saas-search/embeddings/server.py#L112),
[config/services_config.py](/data/saas-search/config/services_config.py#L68),
[providers/embedding.py](/data/saas-search/providers/embedding.py#L27),
and the start scripts
[scripts/start_embedding_service.sh](/data/saas-search/scripts/start_embedding_service.sh#L36),
[scripts/start_embedding_text_service.sh](/data/saas-search/scripts/start_embedding_text_service.sh),
[scripts/start_embedding_image_service.sh](/data/saas-search/scripts/start_embedding_image_service.sh).
- Independent admission control is in place now: text and image have
  separate inflight limits, and image can be kept much stricter than
text. The request handling, reject path, `/health`, and `/ready` are in
[embeddings/server.py](/data/saas-search/embeddings/server.py#L613),
[embeddings/server.py](/data/saas-search/embeddings/server.py#L786), and
[embeddings/server.py](/data/saas-search/embeddings/server.py#L1028).
- I checked the Redis embedding cache. It did exist, but there was a
  real flaw: cache keys did not distinguish `normalize=true` from
`normalize=false`. I fixed that in
[embeddings/cache_keys.py](/data/saas-search/embeddings/cache_keys.py#L6),
and both text and image now use the same normalize-aware keying. I also
added service-side BF16 cache hits that short-circuit before the model
lane, so repeated requests no longer get throttled behind image
inference.

**What This Means**
- Image pressure no longer blocks text, because they are on different
  ports/processes.
- Repeated text/image requests now return from Redis without consuming
  model capacity.
- Over-capacity requests are rejected quickly instead of sitting
  blocked.
- I did not add a load balancer or multi-replica HA, per your GPU
  constraint. I also did not build Grafana/Prometheus dashboards in this
pass, but `/health` now exposes the metrics needed to wire them.

**Validation**
- Tests passed: `.venv/bin/python -m pytest -q
  tests/test_embedding_pipeline.py
tests/test_embedding_service_limits.py` -> `10 passed`
- Stress test tool updates are in
  [scripts/perf_api_benchmark.py](/data/saas-search/scripts/perf_api_benchmark.py#L155)
- Fresh benchmark on split text service `6105`: 535 requests / 3s, 100%
  success, `174.56 rps`, avg `88.48 ms`
- Fresh benchmark on split image service `6108`: 1213 requests / 3s,
  100% success, `403.32 rps`, avg `9.64 ms`
- Live health after the run showed cache hits and non-zero cache-hit
  latency accounting:
  - text `avg_latency_ms=4.251`
  - image `avg_latency_ms=1.462`

2026-03-19 13:21:01 +0800