ai-saas / saas-search

19 Mar, 2026

2 commits

14e67b71 分句后的 batching 现在是“先全量分句，再按 segment 总数按模型 batch_size ... Browse Dir »

推理”，不再是先按原始输入条数切块。也就是说，如果 100 条请求分句后变成
150 个 segments，batch_size=64 时会按 64 + 64 + 22
三批推理，推理完再按原始分句计划合并并还原成 100 条返回。这个改动在
local_seq2seq.py (line 241) 和 local_ctranslate2.py (line 391)。

日志这边也补上了两层你要的关键信息：

分句摘要日志：Translation segmentation
summary，会打印输入条数、非空条数、发生分句的输入数、总 segments
数、当前 batch_size、每条输入分成多少段的统计，见 local_seq2seq.py (line
216) 和 local_ctranslate2.py (line 366)。
每个预测批次日志：Translation inference
batch，会打印第几批、总批数、该批 segment
数、长度统计、首条预览。CTranslate2 另外还会打印 Translation model batch
detail，补充 token 长度和 max_decoding_length，见 local_ctranslate2.py
(line 294)。
我也补了测试，覆盖了“分句后再
batching”和“日志中有分句摘要与每批推理日志”，在
test_translation_local_backends.py (line 358)。

2026-03-19 10:54:30 +0800

294c3d0a 实现第一版“按模型预算智能分句”的基础能力。 ... Browse Dir »

改动：

新增分句与预算工具：translation/text_splitter.py
接入 HF 本地后端：translation/backends/local_seq2seq.py (line 157)
接入 CT2 本地后端：translation/backends/local_ctranslate2.py (line 301)
补了测试：tests/test_translation_local_backends.py
我先把代码里实际限制梳理了一遍，关键配置在 config/config.yaml (line
133)：

nllb-200-distilled-600m: max_input_length=256，max_new_tokens=64，并且是
ct2_decoding_length_mode=source +
extra=8。现在按这个配置计算出的保守输入预算是 56 token。
opus-mt-zh-en:
max_input_length=256，max_new_tokens=256。现在保守输入预算是 248 token。
opus-mt-en-zh: 同上，也是 248 token。
这版分句策略是：

先按强边界切：。！？!?；;…、换行、英文句号
不够再按弱边界切：，,、：:()（）[]【】/|
再不够才按空白切
最后才做 token 预算下的硬切
超长时会“分句翻译后再回拼”，中文目标语言默认无空格回拼，英文等默认按空格回拼，尽量别切太碎
验证：

python3 -m compileall translation
tests/test_translation_local_backends.py 已通过

2026-03-19 09:51:06 +0800

18 Mar, 2026

6 commits

cd4ce66d trans logs Browse Dir »

tangwang
2026-03-18 20:32:37 +0800
c90f80ed 相关性优化 Browse Dir »

tangwang
2026-03-18 16:44:27 +0800
a8261ece 检索效果优化 Browse Dir »

tangwang
2026-03-18 10:55:57 +0800

a47416ec 把融合逻辑改成乘法公式，并把 ES 命名子句分数回传链路补上了。 ... Browse Dir »

核心改动在 rerank_client.py (line 99)：fuse_scores_and_resort 现在按
rerank * knn * text 的平滑乘法公式计算，优先从 hit["matched_queries"]
里取 base_query 和 knn_query，并把 _text_score / _knn_score
一并写回调试字段。为了让 KNN 也有名字，我给 top-level knn 加了 name:
"knn_query"，见 es_query_builder.py (line 273)。搜索执行时会在 rerank
窗口内打开 include_named_queries_score，并在显式排序时加上
track_scores，见 searcher.py (line 400) 和 es_client.py (line 224)。

2026-03-18 10:24:05 +0800

76e1f088 1. 减少一列sell points。有时候大模型输出会将这最后两列混淆，因此干脆去掉一个 ... Browse Dir »
```
2. 优化缓存，缓存粒度为商品级，每次只对batch中未cache的重新计算；key使用每个商品输入的hash
```
tangwang
2026-03-18 10:15:41 +0800
a73a751f enrich Browse Dir »

tangwang
2026-03-18 09:10:53 +0800

17 Mar, 2026

4 commits

0fd2f875 translate Browse Dir »

tangwang
2026-03-17 19:21:34 +0800

4a37d233 1. embedding cache float32 -> bf16 ... Browse Dir »

2. 抽象出可复用的 embedding Redis 缓存类（图文共用）

详细：
1. embedding 缓存改为 BF16 存 Redis（读回恢复 FP32）
关键行为（按你给的流程落地）
写入前：FP32 embedding →（normalize_embeddings=True 时）L2 normalize →
转 BF16 → bytes（2字节/维，大端） → redis.setex
读取后：redis.get bytes → BF16 → 恢复 FP32（np.float32 向量）
变更点
新增 embeddings/bf16.py
提供 float32_to_bf16 / bf16_to_float32
encode_embedding_for_redis()：FP32 → BF16 → bytes
decode_embedding_from_redis()：bytes → BF16 → FP32
l2_normalize_fp32()：按需归一化
修改 embeddings/text_encoder.py
Redis value 从 pickle.dumps(np.ndarray) 改为 BF16 bytes
缓存 key 改为包含 normalize 标记：{prefix}:{n0|n1}:{query}（避免
normalize 开关不同却共用缓存）
修改 tests/test_embedding_pipeline.py
cache hit 用例改为写入 BF16 bytes，并使用新
key：embedding:n1:cached-text
修改 docs/缓存与Redis使用说明.md
embedding 缓存的 Key/Value 格式更新为 BF16 bytes + n0/n1
修改 scripts/redis/redis_cache_health_check.py
embedding pattern 不再硬编码 embedding:*，改为读取
REDIS_CONFIG["embedding_cache_prefix"]
value 预览从 pickle 解码改为 BF16 解码后展示 dim/bytes/dtype
自检
在激活环境后跑过 BF16 编解码往返 sanity check：bytes
长度、维度恢复正常；归一化向量读回后范数接近 1（会有 BF16 量化误差）。

2. 抽象出可复用的 embedding Redis 缓存类（图文共用）
新增
embeddings/redis_embedding_cache.py：RedisEmbeddingCache
统一 Redis 初始化（读 REDIS_CONFIG）
统一 BF16 bytes 编解码（复用 embeddings/bf16.py）
统一过期策略：写入 setex(expire_time)，命中读取后 expire(expire_time)
滑动过期刷新 TTL
统一异常/坏数据处理：解码失败或向量非 1D/为空/含 NaN/Inf 会删除该 key
并当作 miss
已接入复用
文本 embeddings/text_encoder.py
用 self.cache = RedisEmbeddingCache(key_prefix=..., namespace="")
key 仍是：{prefix}:{query}
图片 embeddings/image_encoder.py
用 self.cache = RedisEmbeddingCache(key_prefix=..., namespace="image")
key 仍是：{prefix}:image:{url_or_path}

2026-03-17 15:06:51 +0800

3d588bef embeddings Browse Dir »

tangwang
2026-03-17 13:53:50 +0800

6f7840cf refactor: rename product annotator to enrich and expand multilingual prompts ... Browse Dir »

- Rename indexer/product_annotator.py to indexer/product_enrich.py and remove CSV-based CLI entrypoint, keeping only in-memory analyze_products API
- Introduce dedicated product_enrich logging with separate verbose log file for full LLM requests/responses
- Change indexer and /indexer/enrich-content API wiring to use indexer.product_enrich instead of indexer.product_annotator, updating tests and docs accordingly
- Switch translate_prompts to share SUPPORTED_INDEX_LANGUAGES from tenant_config_loader and reuse that mapping for language code → display name
- Remove hard SUPPORTED_LANGS constraint from LLM content-enrichment flow, driving languages directly from tenant/indexer configuration
- Redesign LLM prompt generation to support multi-round, multi-language tables: first round in English, subsequent rounds translate the entire table (headers + cells) into target languages using English instructions

2026-03-17 11:26:03 +0800

13 Mar, 2026

6 commits

d4cadc13 翻译重构 Browse Dir »

tangwang
2026-03-13 20:28:08 +0800
a0a173ae last Browse Dir »

tangwang
2026-03-13 16:56:44 +0800
985752f5 1. 前端调试功能 ... Browse Dir »
```
2. 翻译限速 对应处理（qwen-mt限速）
```
tangwang
2026-03-13 16:15:06 +0800
22ae00c7 product_annotator Browse Dir »

tangwang
2026-03-13 13:48:23 +0800
77ab67ad 更新测试用例 Browse Dir »

tangwang
2026-03-13 12:39:40 +0800
a7bb846c monitor Browse Dir »

tangwang
2026-03-13 12:08:20 +0800

12 Mar, 2026

5 commits

0d3e73ba rerank mini batch Browse Dir »

tangwang
2026-03-12 19:57:44 +0800
d31c7f65 补充云服务reranker Browse Dir »

tangwang
2026-03-12 12:53:08 +0800
a99e62ba 记录各阶段耗时 Browse Dir »

tangwang
2026-03-12 11:42:49 +0800
c51d254f 性能测试 Browse Dir »

tangwang
2026-03-12 10:28:43 +0800
5f7d7f09 性能测试报告.md Browse Dir »

tangwang
2026-03-12 08:44:55 +0800

11 Mar, 2026

3 commits

7fbca0d7 启动脚本优化 Browse Dir »

tangwang
2026-03-11 19:23:57 +0800
be3f0d46 /indexer/enrich-content Browse Dir »

tangwang
2026-03-11 14:36:33 +0800
9f5994b4 reranker Browse Dir »

tangwang
2026-03-11 14:26:34 +0800

10 Mar, 2026

4 commits

daf66a51 已完成接口级压测脚本，覆盖搜索、suggest ... Browse Dir »

和微服务（embedding/translate/rerank）。

**新增文件**
-
压测主脚本：[perf_api_benchmark.py](/data/saas-search/scripts/perf_api_benchmark.py:1)
-
自定义用例模板：[perf_cases.json.example](/data/saas-search/scripts/perf_cases.json.example:1)

**文档更新**
-
在接口对接文档增加“接口级压测脚本”章节：[搜索API对接指南.md](/data/saas-search/docs/搜索API对接指南.md:2089)

**支持的场景**
- `backend_search` -> `POST /search/`
- `backend_suggest` -> `GET /search/suggestions`
- `embed_text` -> `POST /embed/text`
- `translate` -> `POST /translate`
- `rerank` -> `POST /rerank`
- `all` -> 依次执行上述全部场景

**你可以直接执行的命令**
1. `./.venv/bin/python scripts/perf_api_benchmark.py --scenario
   backend_suggest --tenant-id 162 --duration 30 --concurrency 50`
2. `./.venv/bin/python scripts/perf_api_benchmark.py --scenario
   backend_search --tenant-id 162 --duration 30 --concurrency 20`
3. `./.venv/bin/python scripts/perf_api_benchmark.py --scenario all
   --tenant-id 162 --duration 60 --concurrency 30 --output
perf_reports/all.json`
4. `./.venv/bin/python scripts/perf_api_benchmark.py --scenario all
   --tenant-id 162 --cases-file scripts/perf_cases.json.example
--duration 60 --concurrency 40 --output perf_reports/custom_all.json`

**可选参数**
- `--backend-base` `--embedding-base` `--translator-base`
  `--reranker-base`：切到你的实际服务地址
- `--max-requests`：限制总请求数
- `--max-errors`：错误达到阈值提前停止
- `--pause`：`all` 模式下场景间暂停

**本地已验证**
- `backend_suggest` 小规模并发压测成功（200，成功率 100%）
- `backend_search` 小规模并发压测成功（200，成功率 100%）
- `translate` 小规模并发压测成功（200，成功率 100%）

2026-03-10 22:10:49 +0800

ff9efda0 suggest Browse Dir »

tangwang
2026-03-10 20:14:55 +0800
24e92141 delete enable_multilang_search Browse Dir »

tangwang
2026-03-10 13:12:56 +0800
26b910bd refactor service init and tighten multi-tenant search contracts Browse Dir »

tangwang
2026-03-10 13:09:24 +0800

09 Mar, 2026

4 commits

07cf5a93 START_EMBEDDING=1 START_TRANSLATOR=1 START_RERANKER=1 START_TEI=1 ... Browse Dir »
```
CNCLIP_DEVICE=cuda TEI_USE_GPU=1 ./scripts/service_ctl.sh start
搜索后端+indexer+测试前段+4个微服务 跑通
```
tangwang
2026-03-09 23:29:07 +0800
ed948666 tidy Browse Dir »

tangwang
2026-03-09 17:04:00 +0800
950a640e embeddings Browse Dir »

tangwang
2026-03-09 15:59:14 +0800
e7a2c0b7 img encode Browse Dir »

tangwang
2026-03-09 10:25:44 +0800

08 Mar, 2026

2 commits

2e3670ab index services Browse Dir »

tangwang
2026-03-08 22:41:44 +0800
7299bae6 tests Browse Dir »

tangwang
2026-03-08 17:46:21 +0800

07 Mar, 2026

1 commit

42e3aea6 tidy Browse Dir »

tangwang
2026-03-07 19:44:25 +0800

06 Mar, 2026

1 commit

a7920e17 项目名称和部署路径修改 Browse Dir »

tangwang
2026-03-06 17:32:37 +0800

02 Mar, 2026

1 commit

f251cf2d suggestion全量索引程序跑通 Browse Dir »

tangwang
2026-03-02 21:01:27 +0800

05 Feb, 2026

1 commit

506c39b7 feat(search): 统一重排逻辑，仅由 ai_search 控制并调用外部 BGE 重排服务 ... Browse Dir »

- API：新增请求参数 ai_search，开启时在窗口内走重排流程
- 配置：RerankConfig 移除 enabled/expression/description，仅保留 rerank_window 及
  service_url/timeout_sec/weight_es/weight_ai；默认超时 15s
- 重排流程：ai_search 且 from+size<=rerank_window 时，ES 取前 rerank_window 条，
  调用外部 /rerank 服务，融合 ES 与重排分数后按 from/size 分页；否则不重排
- search/rerank_client：新增模块，封装 build_docs、call_rerank_service、
  fuse_scores_and_resort、run_rerank；超时单独捕获并简短日志
- search/searcher：移除 RerankEngine，enable_rerank=ai_search，使用 config.rerank 参数
- 删除 search/rerank_engine.py（本地表达式重排），统一为外部服务一种实现
- 文档：搜索 API 对接指南补充 ai_search 与 relevance_score 说明
- 测试：conftest 中 rerank 配置改为新结构

Co-authored-by: Cursor <cursoragent@cursor.com>

2026-02-05 14:13:41 +0800