ai-saas / saas-search

19 Mar, 2026

1 commit

14e67b71 分句后的 batching 现在是“先全量分句，再按 segment 总数按模型 batch_size ... Browse File »

推理”，不再是先按原始输入条数切块。也就是说，如果 100 条请求分句后变成
150 个 segments，batch_size=64 时会按 64 + 64 + 22
三批推理，推理完再按原始分句计划合并并还原成 100 条返回。这个改动在
local_seq2seq.py (line 241) 和 local_ctranslate2.py (line 391)。

日志这边也补上了两层你要的关键信息：

分句摘要日志：Translation segmentation
summary，会打印输入条数、非空条数、发生分句的输入数、总 segments
数、当前 batch_size、每条输入分成多少段的统计，见 local_seq2seq.py (line
216) 和 local_ctranslate2.py (line 366)。
每个预测批次日志：Translation inference
batch，会打印第几批、总批数、该批 segment
数、长度统计、首条预览。CTranslate2 另外还会打印 Translation model batch
detail，补充 token 长度和 max_decoding_length，见 local_ctranslate2.py
(line 294)。
我也补了测试，覆盖了“分句后再
batching”和“日志中有分句摘要与每批推理日志”，在
test_translation_local_backends.py (line 358)。

2026-03-19 10:54:30 +0800

18 Mar, 2026

1 commit

cd4ce66d trans logs Browse File »

tangwang
2026-03-18 20:32:37 +0800

17 Mar, 2026

3 commits

0fd2f875 translate Browse File »

tangwang
2026-03-17 19:21:34 +0800

5e4dc8e4 翻译架构按“一个翻译服务 + ... Browse File »

多个独立翻译能力”重构。现在业务侧不再把翻译当 provider
选型，QueryParser 和 indexer 统一通过 6006 的 translator service client
调用；真正的能力选择、启用开关、model + scene 路由，都收口到服务端和新的
translation/ 目录里了。

这次的核心改动在
config/services_config.py、providers/translation.py、api/translator_app.py、config/config.yaml
和新的 translation/service.py。配置从旧的
services.translation.provider/providers 改成了 service_url +
default_model + default_scene + capabilities，每个能力可独立
enabled；服务端新增了统一的 backend 管理与懒加载，真实实现集中到
translation/backends/qwen_mt.py、translation/backends/llm.py、translation/backends/deepl.py，旧的
query/qwen_mt_translate.py、query/llm_translate.py、query/deepl_provider.py
只保留兼容导出。接口上，/translate 现在标准支持 scene，context
作为兼容别名继续可用，健康检查会返回默认模型、默认场景和已启用能力。

2026-03-17 15:50:53 +0800

6f7840cf refactor: rename product annotator to enrich and expand multilingual prompts ... Browse File »

- Rename indexer/product_annotator.py to indexer/product_enrich.py and remove CSV-based CLI entrypoint, keeping only in-memory analyze_products API
- Introduce dedicated product_enrich logging with separate verbose log file for full LLM requests/responses
- Change indexer and /indexer/enrich-content API wiring to use indexer.product_enrich instead of indexer.product_annotator, updating tests and docs accordingly
- Switch translate_prompts to share SUPPORTED_INDEX_LANGUAGES from tenant_config_loader and reuse that mapping for language code → display name
- Remove hard SUPPORTED_LANGS constraint from LLM content-enrichment flow, driving languages directly from tenant/indexer configuration
- Redesign LLM prompt generation to support multi-round, multi-language tables: first round in English, subsequent rounds translate the entire table (headers + cells) into target languages using English instructions

2026-03-17 11:26:03 +0800

13 Mar, 2026

2 commits

d4cadc13 翻译重构 Browse File »

tangwang
2026-03-13 20:28:08 +0800
a0a173ae last Browse File »

tangwang
2026-03-13 16:56:44 +0800

10 Mar, 2026

2 commits

26b910bd refactor service init and tighten multi-tenant search contracts Browse File »

tangwang
2026-03-10 13:09:24 +0800

c7e80cc2 新的 .env 管理机制如下： ... Browse File »

1. 新增 `scripts/init_env.sh`
- 若 `.env` 不存在，从 `.env.example` 复制生成
- 支持 `--force`：覆盖 `.env` 并备份为 `.env.bak`
- 首次搭建时统一执行：`./scripts/init_env.sh`

 2. 统一加载逻辑 `scripts/lib/load_env.sh`
- 移除 `activate.sh` 和 `service_ctl.sh` 中的重复解析逻辑
- 使用共享的 `load_env_file`，并改为 `eval "$(printf 'export %s=%q\n'
  "$key" "$value")"` 安全导出
- 支持含 ``、`$`、空格等特殊字符的值（需在 `.env` 中用引号包裹）

 3. 使用方式
- **activate.sh**：`source scripts/lib/load_env.sh` 后调用
  `load_env_file`
- **service_ctl.sh**：同上，去掉内联的 `load_env_file` 实现
- **create_tenant_index.sh**：改为使用共享 loader，不再用 `set -a;
  source .env`

 4. 文档更新
- **README.md**：在快速开始中加入 `./scripts/init_env.sh`
- **docs/QUICKSTART.md**：说明 `init_env.sh`
  用法，并强调含特殊字符的密码需加引号
- **.env.example**：补充注释说明引号规则

 5. setup.sh
- 用 `./scripts/init_env.sh` 替代原先的 `cp .env.example .env`

---

**推荐流程**：
```bash
./scripts/create_venv.sh
./scripts/init_env.sh     从 .env.example 生成本地 .env
source activate.sh
./run.sh
```

**密码写法**：若密码包含 ``、`$`、`&`、空格等，需加引号，例如：
```env
DB_PASSWORD="qY8tgodLoA&KTyQ"
ES_PASSWORD="4hOaLaf41y2VuI8y"
```

2026-03-10 10:40:14 +0800

26 Jan, 2026

1 commit

3cd09b3b 翻译接口改为调用qwen-mt-flash ... Browse File »
```
文档： 翻译模块说明.md
```
tangwang
2026-01-26 13:31:41 +0800

31 Dec, 2025

1 commit

768ad710 MySQL到ES字段映射说明-业务版.md Browse File »

tangwang
2025-12-31 16:58:16 +0800