ai-saas / saas-search

19 Mar, 2026

1 commit

46ce858d 在NLLB模型的 /data/saas-search/config/config.yaml#L133 ... Browse Dir »

中采用了最优T4配置：ct2_inter_threads=2、ct2_max_queued_batches=16、ct2_batch_type=examples。该设置使NLLB获得了显著更优的在线式性能，同时大致保持了大批次吞吐量不变。我没有将相同配置应用于两个Marian模型，因为聚焦式报告显示了复杂的权衡：opus-mt-zh-en
在保守默认配置下更为均衡，而 opus-mt-en-zh 虽然获得了吞吐量提升，但在
c=8 时尾延迟波动较大。
我还将部署/配置经验记录在 /data/saas-search/translation/README.md
中，并在 /data/saas-search/docs/TODO.txt
中标记了优化结果。关键实践要点现已记录如下：使用CT2 +
float16，保持单worker，将NLLB的 inter_threads 设为2、max_queued_batches
设为16，在T4上避免使用
inter_threads=4（因为这会损害高批次吞吐量），除非区分在线/离线配置，否则保持Marian模型的默认配置保守。

2026-03-19 07:45:15 +0800

18 Mar, 2026

5 commits

ea293660 CTranslate2 ... Browse Dir »

Implemented CTranslate2 for the three local translation models and
switched the existing local_nllb / local_marian factories over to it.
The new runtime lives in local_ctranslate2.py, including HF->CT2
auto-conversion, float16 compute type mapping, Marian direction
handling, and NLLB target-prefix decoding. The service wiring is in
service.py (line 113), and the three model configs now point at explicit
ctranslate2-float16 dirs in config.yaml (line 133).

I also updated the setup path so this is usable end-to-end:
ctranslate2>=4.7.0 was added to requirements_translator_service.txt and
requirements.txt, the download script now supports pre-conversion in
download_translation_models.py (line 27), and the docs/config examples
were refreshed in translation/README.md. I installed ctranslate2 into
.venv-translator, pre-converted all three models, and the CT2 artifacts
are now already on disk:

models/translation/facebook/nllb-200-distilled-600M/ctranslate2-float16
models/translation/Helsinki-NLP/opus-mt-zh-en/ctranslate2-float16
models/translation/Helsinki-NLP/opus-mt-en-zh/ctranslate2-float16
Verification was solid. python3 -m compileall passed, direct
TranslationService smoke tests ran successfully in .venv-translator, and
the focused NLLB benchmark on the local GPU showed a clear win:

batch_size=16: HF 0.347s/batch, 46.1 items/s vs CT2 0.130s/batch, 123.0
items/s
batch_size=1: HF 0.396s/request vs CT2 0.126s/request
One caveat: translation quality on some very short phrases, especially
opus-mt-en-zh, still looks a bit rough in smoke tests, so I’d run your
real quality set before fully cutting over. If you want, I can take the
next step and update the benchmark script/report so you have a fresh
full CT2 performance report for all three models.

2026-03-18 23:15:46 +0800

cd4ce66d trans logs Browse Dir »

tangwang
2026-03-18 20:32:37 +0800
c90f80ed 相关性优化 Browse Dir »

tangwang
2026-03-18 16:44:27 +0800
a8261ece 检索效果优化 Browse Dir »

tangwang
2026-03-18 10:55:57 +0800
a73a751f enrich Browse Dir »

tangwang
2026-03-18 09:10:53 +0800

17 Mar, 2026

5 commits

3eff49b7 trans nllb-200-distilled-600M性能提升 Browse Dir »

tangwang
2026-03-17 21:29:18 +0800
0fd2f875 translate Browse Dir »

tangwang
2026-03-17 19:21:34 +0800

5e4dc8e4 翻译架构按“一个翻译服务 + ... Browse Dir »

多个独立翻译能力”重构。现在业务侧不再把翻译当 provider
选型，QueryParser 和 indexer 统一通过 6006 的 translator service client
调用；真正的能力选择、启用开关、model + scene 路由，都收口到服务端和新的
translation/ 目录里了。

这次的核心改动在
config/services_config.py、providers/translation.py、api/translator_app.py、config/config.yaml
和新的 translation/service.py。配置从旧的
services.translation.provider/providers 改成了 service_url +
default_model + default_scene + capabilities，每个能力可独立
enabled；服务端新增了统一的 backend 管理与懒加载，真实实现集中到
translation/backends/qwen_mt.py、translation/backends/llm.py、translation/backends/deepl.py，旧的
query/qwen_mt_translate.py、query/llm_translate.py、query/deepl_provider.py
只保留兼容导出。接口上，/translate 现在标准支持 scene，context
作为兼容别名继续可用，健康检查会返回默认模型、默认场景和已启用能力。

2026-03-17 15:50:53 +0800

3d588bef embeddings Browse Dir »

tangwang
2026-03-17 13:53:50 +0800

6f7840cf refactor: rename product annotator to enrich and expand multilingual prompts ... Browse Dir »

- Rename indexer/product_annotator.py to indexer/product_enrich.py and remove CSV-based CLI entrypoint, keeping only in-memory analyze_products API
- Introduce dedicated product_enrich logging with separate verbose log file for full LLM requests/responses
- Change indexer and /indexer/enrich-content API wiring to use indexer.product_enrich instead of indexer.product_annotator, updating tests and docs accordingly
- Switch translate_prompts to share SUPPORTED_INDEX_LANGUAGES from tenant_config_loader and reuse that mapping for language code → display name
- Remove hard SUPPORTED_LANGS constraint from LLM content-enrichment flow, driving languages directly from tenant/indexer configuration
- Redesign LLM prompt generation to support multi-round, multi-language tables: first round in English, subsequent rounds translate the entire table (headers + cells) into target languages using English instructions

2026-03-17 11:26:03 +0800

13 Mar, 2026

4 commits

d4cadc13 翻译重构 Browse Dir »

tangwang
2026-03-13 20:28:08 +0800
a0a173ae last Browse Dir »

tangwang
2026-03-13 16:56:44 +0800
22ae00c7 product_annotator Browse Dir »

tangwang
2026-03-13 13:48:23 +0800
77ab67ad 更新测试用例 Browse Dir »

tangwang
2026-03-13 12:39:40 +0800

12 Mar, 2026

5 commits

0d3e73ba rerank mini batch Browse Dir »

tangwang
2026-03-12 19:57:44 +0800
d31c7f65 补充云服务reranker Browse Dir »

tangwang
2026-03-12 12:53:08 +0800
a99e62ba 记录各阶段耗时 Browse Dir »

tangwang
2026-03-12 11:42:49 +0800
c51d254f 性能测试 Browse Dir »

tangwang
2026-03-12 10:28:43 +0800
5f7d7f09 性能测试报告.md Browse Dir »

tangwang
2026-03-12 08:44:55 +0800

11 Mar, 2026

3 commits

af7ee060 service_ctl 简化为“显式服务清单”模式 ... Browse Dir »

去掉 START_* 控制变量逻辑，默认只启动核心服务 backend/indexer/frontend。
可选服务改为显式命令：./scripts/service_ctl.sh start embedding
translator reranker tei cnclip。
统一 translator 端口读取为 TRANSLATION_PORT（移除 TRANSLATOR_PORT
兼容）。
保留未知服务强校验。
关键文件：service_ctl.sh
“重名/歧义”修复
frontend 端口命名统一：FRONTEND_PORT 为主，PORT 仅后备。
start_frontend.sh 显式导出 PORT="${FRONTEND_PORT}"，避免配置了
FRONTEND_PORT 但服务仍跑 6003 的问题。
文件：start_frontend.sh、frontend_server.py、env_config.py
日志/PID 命名治理继续收口
统一规则继续落地为 logs/<service>.log、logs/<service>.pid。
cnclip 保持 logs/cnclip.log + logs/cnclip.pid。
文件：service_ctl.sh、start_cnclip_service.sh、stop_cnclip_service.sh
backend/indexer 启动风格统一补齐相关项
frontend/translator 也对齐到 set -euo pipefail，并用 exec 直启主进程。
文件：start_frontend.sh、start_translator.sh、start_backend.sh、start_indexer.sh
legacy 入口清理
删除：start_servers.py、stop_reranker.sh、stop_translator.sh。
reranker 停止逻辑并入 service_ctl（含 VLLM::EngineCore 清理）。
benchmark 脚本改为统一入口：service_ctl.sh stop reranker。
文件：benchmark_reranker_1000docs.sh

2026-03-11 22:39:39 +0800

9f5994b4 reranker Browse Dir »

tangwang
2026-03-11 14:26:34 +0800

efd435cf tei性能调优： ... Browse Dir »

./scripts/start_tei_service.sh
START_TEI=0 ./scripts/service_ctl.sh restart embedding

curl -sS -X POST "http://127.0.0.1:6005/embed/text" \
  -H "Content-Type: application/json" \
  -d '["芭比娃娃 儿童玩具", "纯棉T恤 短袖"]'

2026-03-11 13:12:44 +0800

10 Mar, 2026

6 commits

654f20d1 分词改为ik Browse Dir »

tangwang
2026-03-10 17:05:31 +0800
bcada818 last Browse Dir »

tangwang
2026-03-10 16:17:18 +0800

bd96cead 1. 动态多语言字段与统一策略配置 ... Browse Dir »

- 配置改为“字段基名 + 动态语言后缀”方案，已不再依赖旧 `indexes`。
[config.yaml](/data/saas-search/config/config.yaml#L17)
- `search_fields` / `text_query_strategy` 已进入强校验与解析流程。
[config_loader.py](/data/saas-search/config/config_loader.py#L254)

2. 查询语言计划与翻译等待策略
- `QueryParser` 现在产出
  `query_text_by_lang`、`search_langs`、`source_in_index_languages`。
[query_parser.py](/data/saas-search/query/query_parser.py#L41)
- 你要求的两种翻译路径都在：
  - 源语言不在店铺 `index_languages`：`translate_multi_async` + 等待
    future
  - 源语言在 `index_languages`：`translate_multi(...,
    async_mode=True)`，尽量走缓存
[query_parser.py](/data/saas-search/query/query_parser.py#L284)

3. ES 查询统一文本策略（无 AST 分支）
- 主召回按 `search_langs` 动态拼 `field.{lang}`，翻译语种做次权重
  `should`。
[es_query_builder.py](/data/saas-search/search/es_query_builder.py#L454)
- 布尔 AST 路径已删除，仅保留统一文本策略。
[es_query_builder.py](/data/saas-search/search/es_query_builder.py#L185)

4. LanguageDetector 优化
- 从“拉丁字母默认英文”升级为：脚本优先 +
  拉丁语系打分（词典/变音/后缀）。
[language_detector.py](/data/saas-search/query/language_detector.py#L68)

5. 布尔能力清理（补充）
- 已删除废弃模块：
[boolean_parser.py](/data/saas-search/search/boolean_parser.py)
- `search/__init__` 已无相关导出。
[search/__init__.py](/data/saas-search/search/__init__.py)

6. `indexes` 过时收口（补充）
- 兼容函数改为基于动态字段生成，不再依赖 `config.indexes`。
[utils.py](/data/saas-search/config/utils.py#L24)
- Admin 配置接口改为返回动态字段配置，不再暴露 `num_indexes`。
[admin.py](/data/saas-search/api/routes/admin.py#L52)

7. suggest

2026-03-10 16:06:31 +0800

24e92141 delete enable_multilang_search Browse Dir »

tangwang
2026-03-10 13:12:56 +0800
26b910bd refactor service init and tighten multi-tenant search contracts Browse Dir »

tangwang
2026-03-10 13:09:24 +0800
54ccf28c tei Browse Dir »

tangwang
2026-03-10 12:21:46 +0800

09 Mar, 2026

4 commits

bc089b43 refactor(reranker): 对齐 Qwen3-Reranker 官方实现 ... Browse Dir »

config/config.yaml:
- qwen3_vllm: enable_prefix_caching true（启用前缀缓存）
- qwen3_vllm: enforce_eager false（允许 CUDA graph 加速）

reranker/backends/qwen3_vllm.py:
- TokensPrompt 导入改为 vllm.inputs.data（官方路径，兼容性更好）
- 缺失 token 时使用 logprob=-10，与官方一致（原为 1e-10）
- 使用批量 apply_chat_template 替代逐条调用，提升效率
- logprobs 访问改为官方模式：token not in last 时 -10，否则 last[token].logprob

其他: docs、embeddings、README 等文档更新

Made-with: Cursor

2026-03-09 23:48:19 +0800

07cf5a93 START_EMBEDDING=1 START_TRANSLATOR=1 START_RERANKER=1 START_TEI=1 ... Browse Dir »
```
CNCLIP_DEVICE=cuda TEI_USE_GPU=1 ./scripts/service_ctl.sh start
搜索后端+indexer+测试前段+4个微服务 跑通
```
tangwang
2026-03-09 23:29:07 +0800
ed948666 tidy Browse Dir »

tangwang
2026-03-09 17:04:00 +0800
950a640e embeddings Browse Dir »

tangwang
2026-03-09 15:59:14 +0800

08 Mar, 2026

1 commit

701ae503 docs Browse Dir »

tangwang
2026-03-08 14:30:07 +0800

07 Mar, 2026

2 commits

42e3aea6 tidy Browse Dir »

tangwang
2026-03-07 19:44:25 +0800
d1d356f8 脚本优化 Browse Dir »

tangwang
2026-03-07 11:48:59 +0800

06 Mar, 2026

1 commit

a7920e17 项目名称和部署路径修改 Browse Dir »

tangwang
2026-03-06 17:32:37 +0800

05 Mar, 2026

1 commit

648cb4c2 ES docs Browse Dir »

tangwang
2026-03-05 23:12:27 +0800

05 Feb, 2026

2 commits

ff32d894 rerank Browse Dir »

tangwang
2026-02-05 16:13:46 +0800

506c39b7 feat(search): 统一重排逻辑，仅由 ai_search 控制并调用外部 BGE 重排服务 ... Browse Dir »

- API：新增请求参数 ai_search，开启时在窗口内走重排流程
- 配置：RerankConfig 移除 enabled/expression/description，仅保留 rerank_window 及
  service_url/timeout_sec/weight_es/weight_ai；默认超时 15s
- 重排流程：ai_search 且 from+size<=rerank_window 时，ES 取前 rerank_window 条，
  调用外部 /rerank 服务，融合 ES 与重排分数后按 from/size 分页；否则不重排
- search/rerank_client：新增模块，封装 build_docs、call_rerank_service、
  fuse_scores_and_resort、run_rerank；超时单独捕获并简短日志
- search/searcher：移除 RerankEngine，enable_rerank=ai_search，使用 config.rerank 参数
- 删除 search/rerank_engine.py（本地表达式重排），统一为外部服务一种实现
- 文档：搜索 API 对接指南补充 ai_search 与 relevance_score 说明
- 测试：conftest 中 rerank 配置改为新结构

Co-authored-by: Cursor <cursoragent@cursor.com>

2026-02-05 14:13:41 +0800