ai-saas / saas-search

19 Mar, 2026

1 commit

46ce858d 在NLLB模型的 /data/saas-search/config/config.yaml#L133 ... Browse File »

中采用了最优T4配置：ct2_inter_threads=2、ct2_max_queued_batches=16、ct2_batch_type=examples。该设置使NLLB获得了显著更优的在线式性能，同时大致保持了大批次吞吐量不变。我没有将相同配置应用于两个Marian模型，因为聚焦式报告显示了复杂的权衡：opus-mt-zh-en
在保守默认配置下更为均衡，而 opus-mt-en-zh 虽然获得了吞吐量提升，但在
c=8 时尾延迟波动较大。
我还将部署/配置经验记录在 /data/saas-search/translation/README.md
中，并在 /data/saas-search/docs/TODO.txt
中标记了优化结果。关键实践要点现已记录如下：使用CT2 +
float16，保持单worker，将NLLB的 inter_threads 设为2、max_queued_batches
设为16，在T4上避免使用
inter_threads=4（因为这会损害高批次吞吐量），除非区分在线/离线配置，否则保持Marian模型的默认配置保守。

2026-03-19 07:45:15 +0800

18 Mar, 2026

2 commits

2a6d9d76 更新了压测脚本和文档，让“单条请求 / 单流 batch / 并发 / ... Browse File »

batch×并发矩阵”彻底分开展示。

改动在这几处：

scripts/benchmark_translation_local_models.py：新增 --suite
extended，支持
batch_size=1,4,8,16,32,64、concurrency=1,2,4,8,16,64、以及 batch_size *
concurrency <= 128
的组合矩阵；并且单场景模式现在只加载目标模型，load_seconds
更干净，也支持 --disable-cache。
translation/README.md：把性能章节拆成了
batch_sweep、concurrency_sweep、batch x concurrency matrix
三块，补了这次复测的参数、复现命令和摘要表。
perf_reports/20260318/translation_local_models/README.md：新增本轮补测摘要。
完整结果在 translation_local_models_extended_221846.md 和
translation_local_models_extended_221846.json。
这次补测的核心结论很明确：

在线单条请求应该看 concurrency_sweep，也就是固定 batch_size=1 的表。
离线批量吞吐应该看 batch_sweep，4 个方向的最高 raw throughput 都出现在
batch_size=64，但更均衡的默认值仍更像 batch_size=16。
当前本地 seq2seq backend
有单模型锁，提升客户端并发几乎不涨吞吐，主要是把排队时间变成更高的
p95；所以并发更像“延迟预算”问题，不是“扩容吞吐”手段。
本轮在线单条里最快的是 opus-mt-zh-en；最慢、且并发放大最明显的是
nllb-200-distilled-600m en->zh。

2026-03-18 22:49:15 +0800

c90f80ed 相关性优化 Browse File »

tangwang
2026-03-18 16:44:27 +0800

17 Mar, 2026

4 commits

00471f80 trans Browse File »

tangwang
2026-03-17 20:13:32 +0800
0fd2f875 translate Browse File »

tangwang
2026-03-17 19:21:34 +0800

5e4dc8e4 翻译架构按“一个翻译服务 + ... Browse File »

多个独立翻译能力”重构。现在业务侧不再把翻译当 provider
选型，QueryParser 和 indexer 统一通过 6006 的 translator service client
调用；真正的能力选择、启用开关、model + scene 路由，都收口到服务端和新的
translation/ 目录里了。

这次的核心改动在
config/services_config.py、providers/translation.py、api/translator_app.py、config/config.yaml
和新的 translation/service.py。配置从旧的
services.translation.provider/providers 改成了 service_url +
default_model + default_scene + capabilities，每个能力可独立
enabled；服务端新增了统一的 backend 管理与懒加载，真实实现集中到
translation/backends/qwen_mt.py、translation/backends/llm.py、translation/backends/deepl.py，旧的
query/qwen_mt_translate.py、query/llm_translate.py、query/deepl_provider.py
只保留兼容导出。接口上，/translate 现在标准支持 scene，context
作为兼容别名继续可用，健康检查会返回默认模型、默认场景和已启用能力。

2026-03-17 15:50:53 +0800

4a37d233 1. embedding cache float32 -> bf16 ... Browse File »

2. 抽象出可复用的 embedding Redis 缓存类（图文共用）

详细：
1. embedding 缓存改为 BF16 存 Redis（读回恢复 FP32）
关键行为（按你给的流程落地）
写入前：FP32 embedding →（normalize_embeddings=True 时）L2 normalize →
转 BF16 → bytes（2字节/维，大端） → redis.setex
读取后：redis.get bytes → BF16 → 恢复 FP32（np.float32 向量）
变更点
新增 embeddings/bf16.py
提供 float32_to_bf16 / bf16_to_float32
encode_embedding_for_redis()：FP32 → BF16 → bytes
decode_embedding_from_redis()：bytes → BF16 → FP32
l2_normalize_fp32()：按需归一化
修改 embeddings/text_encoder.py
Redis value 从 pickle.dumps(np.ndarray) 改为 BF16 bytes
缓存 key 改为包含 normalize 标记：{prefix}:{n0|n1}:{query}（避免
normalize 开关不同却共用缓存）
修改 tests/test_embedding_pipeline.py
cache hit 用例改为写入 BF16 bytes，并使用新
key：embedding:n1:cached-text
修改 docs/缓存与Redis使用说明.md
embedding 缓存的 Key/Value 格式更新为 BF16 bytes + n0/n1
修改 scripts/redis/redis_cache_health_check.py
embedding pattern 不再硬编码 embedding:*，改为读取
REDIS_CONFIG["embedding_cache_prefix"]
value 预览从 pickle 解码改为 BF16 解码后展示 dim/bytes/dtype
自检
在激活环境后跑过 BF16 编解码往返 sanity check：bytes
长度、维度恢复正常；归一化向量读回后范数接近 1（会有 BF16 量化误差）。

2. 抽象出可复用的 embedding Redis 缓存类（图文共用）
新增
embeddings/redis_embedding_cache.py：RedisEmbeddingCache
统一 Redis 初始化（读 REDIS_CONFIG）
统一 BF16 bytes 编解码（复用 embeddings/bf16.py）
统一过期策略：写入 setex(expire_time)，命中读取后 expire(expire_time)
滑动过期刷新 TTL
统一异常/坏数据处理：解码失败或向量非 1D/为空/含 NaN/Inf 会删除该 key
并当作 miss
已接入复用
文本 embeddings/text_encoder.py
用 self.cache = RedisEmbeddingCache(key_prefix=..., namespace="")
key 仍是：{prefix}:{query}
图片 embeddings/image_encoder.py
用 self.cache = RedisEmbeddingCache(key_prefix=..., namespace="image")
key 仍是：{prefix}:image:{url_or_path}

2026-03-17 15:06:51 +0800