fix(translation): 补全 NLLB 本地翻译的语言码解析（FLORES 短码 + 完整 tokenizer 码）

问题描述 ---------- 使用 facebook/nllb-200-distilled-600M（CTranslate2 后端）时，若 API 传入 ISO 639-1 或 FLORES 短标签（如 ca、da、nl、sv、no、tr 等），会触发「Unsupported NLLB source/target language」。模型与 tokenizer 实际支持这些语言；根因是 resolve_nllb_language_code 仅依赖 translation/languages.py 里十余条 NLLB_LANGUAGE_CODES 映射，大量合法短码未注册，校验误报为不支持。修改内容 ---------- 1. 新增 translation/nllb_flores_short_map.py - NLLB_FLORES_SHORT_TO_CODE：与 HF 模型卡 language 列表对齐的短标签 -> NLLB 强制 BOS/src_lang 形式（<ISO639-3>_<ISO15924>，如 cat_Latn）。 - NLLB_TOKENIZER_LANGUAGE_CODES：从 tokenizer.json 提取的 202 个语言 token 全集，供直接传入 deu_Latn 等形式时做规范化解析。 - 额外约定：ISO 639-1「no」映射 nob_Latn（书面挪威语 Bokmål）；nb/nn 分别对应 nob_Latn / nno_Latn；「ar」显式指向 arb_Arab（与 NLLB 一致）。 2. 调整 translation/languages.py - build_nllb_language_catalog：合并顺序为 FLORES 全表 -> NLLB_LANGUAGE_CODES （保留少量显式覆盖，如 zh->zho_Hans）-> 调用方 overrides。 - resolve_nllb_language_code：在目录与别名之后，增加基于 NLLB_TOKENIZER_LANGUAGE_CODES 的大小写不敏感匹配（如 eng_latn -> eng_Latn），覆盖「已传完整 NLLB 码」的场景。 3. tests/test_translation_local_backends.py - 新增 test_nllb_resolves_flores_short_tags_and_iso_no，覆盖用户关心的短码及 deu_Latn 直通解析。方案说明 ---------- NLLB 接口语义以 Hugging Face NllbTokenizer 为准：语言标识为 FLORES-200 风格三字母语种码 + 下划线 + 四字母脚本子标签（ISO 15924）。业务侧常用 ISO 639-1 （de、sv）或模型卡短列表（ca、nl），需在服务内统一映射到 tokenizer 特殊 token。本实现以模型卡 language 字段 + tokenizer 词表为单一事实来源生成静态表，避免运行时依赖额外库；同时保留原有 NLLB_LANGUAGE_CODES 作为薄覆盖层以兼容既有配置与测试。 Refs: https://huggingface.co/facebook/nllb-200-distilled-600M Made-with: Cursor

fix(translation): 补全 NLLB 本地翻译的语言码解析（FLORES 短码 + 完整 tokenizer 码）
问题描述 ---------- 使用 facebook/nllb-200-distilled-600M（CTranslate2 后端）时，若 API 传入 ISO 639-1 或 FLORES 短标签（如 ca、da、nl、sv、no、tr 等），会触发「Unsupported NLLB source/target language」。模型与 tokenizer 实际支持这些语言；根因是 resolve_nllb_language_code 仅依赖 translation/languages.py 里十余条 NLLB_LANGUAGE_CODES 映射，大量合法短码未注册，校验误报为不支持。修改内容 ---------- 1. 新增 translation/nllb_flores_short_map.py - NLLB_FLORES_SHORT_TO_CODE：与 HF 模型卡 language 列表对齐的短标签 -> NLLB 强制 BOS/src_lang 形式（<ISO639-3>_<ISO15924>，如 cat_Latn）。 - NLLB_TOKENIZER_LANGUAGE_CODES：从 tokenizer.json 提取的 202 个语言 token 全集，供直接传入 deu_Latn 等形式时做规范化解析。 - 额外约定：ISO 639-1「no」映射 nob_Latn（书面挪威语 Bokmål）；nb/nn 分别对应 nob_Latn / nno_Latn；「ar」显式指向 arb_Arab（与 NLLB 一致）。 2. 调整 translation/languages.py - build_nllb_language_catalog：合并顺序为 FLORES 全表 -> NLLB_LANGUAGE_CODES （保留少量显式覆盖，如 zh->zho_Hans）-> 调用方 overrides。 - resolve_nllb_language_code：在目录与别名之后，增加基于 NLLB_TOKENIZER_LANGUAGE_CODES 的大小写不敏感匹配（如 eng_latn -> eng_Latn），覆盖「已传完整 NLLB 码」的场景。 3. tests/test_translation_local_backends.py - 新增 test_nllb_resolves_flores_short_tags_and_iso_no，覆盖用户关心的短码及 deu_Latn 直通解析。方案说明 ---------- NLLB 接口语义以 Hugging Face NllbTokenizer 为准：语言标识为 FLORES-200 风格三字母语种码 + 下划线 + 四字母脚本子标签（ISO 15924）。业务侧常用 ISO 639-1 （de、sv）或模型卡短列表（ca、nl），需在服务内统一映射到 tokenizer 特殊 token。本实现以模型卡 language 字段 + tokenizer 词表为单一事实来源生成静态表，避免运行时依赖额外库；同时保留原有 NLLB_LANGUAGE_CODES 作为薄覆盖层以兼容既有配置与测试。 Refs: https://huggingface.co/facebook/nllb-200-distilled-600M Made-with: Cursor
tangwang
1 parent 41856690
Showing 3 changed files with 460 additions and 5 deletions Show diff stats
tests/test_translation_local_backends.py
translation/languages.py
translation/nllb_flores_short_map.py
@@ -5,6 +5,7 @@ import torch
  
 from translation.backends.local_seq2seq import MarianMTTranslationBackend, NLLBTranslationBackend
 from translation.backends.local_ctranslate2 import NLLBCTranslate2TranslationBackend
+from translation.languages import build_nllb_language_catalog, resolve_nllb_language_code
 from translation.service import TranslationService
 from translation.text_splitter import compute_safe_input_token_limit, split_text_for_translation
  
@@ -200,6 +201,22 @@ def test_nllb_ctranslate2_accepts_finnish_short_code(monkeypatch):
     assert backend.translator.last_translate_batch_kwargs["target_prefix"] == [["zho_Hans"]]
  
  
+def test_nllb_resolves_flores_short_tags_and_iso_no():
+    cat = build_nllb_language_catalog(None)
+    assert resolve_nllb_language_code("ca", cat) == "cat_Latn"
+    assert resolve_nllb_language_code("da", cat) == "dan_Latn"
+    assert resolve_nllb_language_code("eu", cat) == "eus_Latn"
+    assert resolve_nllb_language_code("gl", cat) == "glg_Latn"
+    assert resolve_nllb_language_code("hu", cat) == "hun_Latn"
+    assert resolve_nllb_language_code("id", cat) == "ind_Latn"
+    assert resolve_nllb_language_code("nl", cat) == "nld_Latn"
+    assert resolve_nllb_language_code("no", cat) == "nob_Latn"
+    assert resolve_nllb_language_code("ro", cat) == "ron_Latn"
+    assert resolve_nllb_language_code("SV", cat) == "swe_Latn"
+    assert resolve_nllb_language_code("tr", cat) == "tur_Latn"
+    assert resolve_nllb_language_code("deu_Latn", cat) == "deu_Latn"
+
+
 def test_translation_service_preloads_enabled_backends(monkeypatch):
     created = []
  
@@ -2,8 +2,14 @@
  
 from __future__ import annotations
  
+from functools import lru_cache
 from typing import Dict, Mapping, Optional, Tuple
  
+from translation.nllb_flores_short_map import (
+    NLLB_FLORES_SHORT_TO_CODE,
+    NLLB_TOKENIZER_LANGUAGE_CODES,
+)
+
  
 LANGUAGE_LABELS: Dict[str, str] = {
     "zh": "Chinese",
@@ -48,6 +54,8 @@ DEEPL_LANGUAGE_CODES: Dict[str, str] = {
 }
  
  
+# Sparse overrides on top of ``NLLB_FLORES_SHORT_TO_CODE`` (same keys win later in
+# ``build_nllb_language_catalog``). Kept for backward compatibility and explicit defaults.
 NLLB_LANGUAGE_CODES: Dict[str, str] = {
     "en": "eng_Latn",
     "fi": "fin_Latn",
@@ -82,14 +90,24 @@ def normalize_language_key(language: Optional[str]) -&gt; str:
     return str(language or "").strip().lower().replace("-", "_")
  
  
+@lru_cache(maxsize=1)
+def _nllb_tokenizer_code_by_normalized_key() -> Dict[str, str]:
+    """Map lowercased ``deu_latn``-style keys to canonical tokenizer strings (e.g. ``deu_Latn``)."""
+    return {normalize_language_key(code): code for code in NLLB_TOKENIZER_LANGUAGE_CODES}
+
+
 def build_nllb_language_catalog(
     overrides: Optional[Mapping[str, str]] = None,
 ) -> Dict[str, str]:
-    catalog = {
-        normalize_language_key(key): str(value).strip()
-        for key, value in NLLB_LANGUAGE_CODES.items()
-        if str(key).strip()
-    }
+    catalog: Dict[str, str] = {}
+    for key, value in NLLB_FLORES_SHORT_TO_CODE.items():
+        normalized_key = normalize_language_key(key)
+        if normalized_key:
+            catalog[normalized_key] = str(value).strip()
+    for key, value in NLLB_LANGUAGE_CODES.items():
+        normalized_key = normalize_language_key(key)
+        if normalized_key:
+            catalog[normalized_key] = str(value).strip()
     for key, value in (overrides or {}).items():
         normalized_key = normalize_language_key(key)
         if normalized_key:
@@ -116,6 +134,10 @@ def resolve_nllb_language_code(
         if aliased is not None:
             return aliased
  
+    tokenizer_hit = _nllb_tokenizer_code_by_normalized_key().get(normalized)
+    if tokenizer_hit is not None:
+        return tokenizer_hit
+
     for code in catalog.values():
         if normalize_language_key(code) == normalized:
             return code
@@ -0,0 +1,416 @@
+"""FLORES short language tags and canonical NLLB tokenizer codes.
+
+``NLLB_FLORES_SHORT_TO_CODE`` maps model-card short tags (ISO 639-1 / FLORES ids)
+to NLLB ``src_lang`` tokens: ``<iso639-3>_<Script>`` (ISO 15924 script).
+
+``NLLB_TOKENIZER_LANGUAGE_CODES`` lists every language token in the tokenizer.
+"""
+from __future__ import annotations
+
+from typing import Dict, FrozenSet
+
+NLLB_TOKENIZER_LANGUAGE_CODES: FrozenSet[str] = frozenset({
+    "ace_Arab",
+    "ace_Latn",
+    "acm_Arab",
+    "acq_Arab",
+    "aeb_Arab",
+    "afr_Latn",
+    "ajp_Arab",
+    "aka_Latn",
+    "als_Latn",
+    "amh_Ethi",
+    "apc_Arab",
+    "arb_Arab",
+    "ars_Arab",
+    "ary_Arab",
+    "arz_Arab",
+    "asm_Beng",
+    "ast_Latn",
+    "awa_Deva",
+    "ayr_Latn",
+    "azb_Arab",
+    "azj_Latn",
+    "bak_Cyrl",
+    "bam_Latn",
+    "ban_Latn",
+    "bel_Cyrl",
+    "bem_Latn",
+    "ben_Beng",
+    "bho_Deva",
+    "bjn_Arab",
+    "bjn_Latn",
+    "bod_Tibt",
+    "bos_Latn",
+    "bug_Latn",
+    "bul_Cyrl",
+    "cat_Latn",
+    "ceb_Latn",
+    "ces_Latn",
+    "cjk_Latn",
+    "ckb_Arab",
+    "crh_Latn",
+    "cym_Latn",
+    "dan_Latn",
+    "deu_Latn",
+    "dik_Latn",
+    "dyu_Latn",
+    "dzo_Tibt",
+    "ell_Grek",
+    "eng_Latn",
+    "epo_Latn",
+    "est_Latn",
+    "eus_Latn",
+    "ewe_Latn",
+    "fao_Latn",
+    "fij_Latn",
+    "fin_Latn",
+    "fon_Latn",
+    "fra_Latn",
+    "fur_Latn",
+    "fuv_Latn",
+    "gaz_Latn",
+    "gla_Latn",
+    "gle_Latn",
+    "glg_Latn",
+    "grn_Latn",
+    "guj_Gujr",
+    "hat_Latn",
+    "hau_Latn",
+    "heb_Hebr",
+    "hin_Deva",
+    "hne_Deva",
+    "hrv_Latn",
+    "hun_Latn",
+    "hye_Armn",
+    "ibo_Latn",
+    "ilo_Latn",
+    "ind_Latn",
+    "isl_Latn",
+    "ita_Latn",
+    "jav_Latn",
+    "jpn_Jpan",
+    "kab_Latn",
+    "kac_Latn",
+    "kam_Latn",
+    "kan_Knda",
+    "kas_Arab",
+    "kas_Deva",
+    "kat_Geor",
+    "kaz_Cyrl",
+    "kbp_Latn",
+    "kea_Latn",
+    "khk_Cyrl",
+    "khm_Khmr",
+    "kik_Latn",
+    "kin_Latn",
+    "kir_Cyrl",
+    "kmb_Latn",
+    "kmr_Latn",
+    "knc_Arab",
+    "knc_Latn",
+    "kon_Latn",
+    "kor_Hang",
+    "lao_Laoo",
+    "lij_Latn",
+    "lim_Latn",
+    "lin_Latn",
+    "lit_Latn",
+    "lmo_Latn",
+    "ltg_Latn",
+    "ltz_Latn",
+    "lua_Latn",
+    "lug_Latn",
+    "luo_Latn",
+    "lus_Latn",
+    "lvs_Latn",
+    "mag_Deva",
+    "mai_Deva",
+    "mal_Mlym",
+    "mar_Deva",
+    "min_Latn",
+    "mkd_Cyrl",
+    "mlt_Latn",
+    "mni_Beng",
+    "mos_Latn",
+    "mri_Latn",
+    "mya_Mymr",
+    "nld_Latn",
+    "nno_Latn",
+    "nob_Latn",
+    "npi_Deva",
+    "nso_Latn",
+    "nus_Latn",
+    "nya_Latn",
+    "oci_Latn",
+    "ory_Orya",
+    "pag_Latn",
+    "pan_Guru",
+    "pap_Latn",
+    "pbt_Arab",
+    "pes_Arab",
+    "plt_Latn",
+    "pol_Latn",
+    "por_Latn",
+    "prs_Arab",
+    "quy_Latn",
+    "ron_Latn",
+    "run_Latn",
+    "rus_Cyrl",
+    "sag_Latn",
+    "san_Deva",
+    "sat_Beng",
+    "scn_Latn",
+    "shn_Mymr",
+    "sin_Sinh",
+    "slk_Latn",
+    "slv_Latn",
+    "smo_Latn",
+    "sna_Latn",
+    "snd_Arab",
+    "som_Latn",
+    "sot_Latn",
+    "spa_Latn",
+    "srd_Latn",
+    "srp_Cyrl",
+    "ssw_Latn",
+    "sun_Latn",
+    "swe_Latn",
+    "swh_Latn",
+    "szl_Latn",
+    "tam_Taml",
+    "taq_Latn",
+    "taq_Tfng",
+    "tat_Cyrl",
+    "tel_Telu",
+    "tgk_Cyrl",
+    "tgl_Latn",
+    "tha_Thai",
+    "tir_Ethi",
+    "tpi_Latn",
+    "tsn_Latn",
+    "tso_Latn",
+    "tuk_Latn",
+    "tum_Latn",
+    "tur_Latn",
+    "twi_Latn",
+    "tzm_Tfng",
+    "uig_Arab",
+    "ukr_Cyrl",
+    "umb_Latn",
+    "urd_Arab",
+    "uzn_Latn",
+    "vec_Latn",
+    "vie_Latn",
+    "war_Latn",
+    "wol_Latn",
+    "xho_Latn",
+    "ydd_Hebr",
+    "yor_Latn",
+    "yue_Hant",
+    "zho_Hans",
+    "zho_Hant",
+    "zsm_Latn",
+    "zul_Latn",
+})
+
+NLLB_FLORES_SHORT_TO_CODE: Dict[str, str] = {
+    "ace": "ace_Latn",
+    "acm": "acm_Arab",
+    "acq": "acq_Arab",
+    "aeb": "aeb_Arab",
+    "af": "afr_Latn",
+    "ajp": "ajp_Arab",
+    "ak": "aka_Latn",
+    "als": "als_Latn",
+    "am": "amh_Ethi",
+    "apc": "apc_Arab",
+    "ar": "arb_Arab",
+    "ars": "ars_Arab",
+    "ary": "ary_Arab",
+    "arz": "arz_Arab",
+    "as": "asm_Beng",
+    "ast": "ast_Latn",
+    "awa": "awa_Deva",
+    "ayr": "ayr_Latn",
+    "azb": "azb_Arab",
+    "azj": "azj_Latn",
+    "ba": "bak_Cyrl",
+    "ban": "ban_Latn",
+    "be": "bel_Cyrl",
+    "bem": "bem_Latn",
+    "bg": "bul_Cyrl",
+    "bho": "bho_Deva",
+    "bjn": "bjn_Latn",
+    "bm": "bam_Latn",
+    "bn": "ben_Beng",
+    "bo": "bod_Tibt",
+    "bs": "bos_Latn",
+    "bug": "bug_Latn",
+    "ca": "cat_Latn",
+    "ceb": "ceb_Latn",
+    "cjk": "cjk_Latn",
+    "ckb": "ckb_Arab",
+    "crh": "crh_Latn",
+    "cs": "ces_Latn",
+    "cy": "cym_Latn",
+    "da": "dan_Latn",
+    "de": "deu_Latn",
+    "dik": "dik_Latn",
+    "dyu": "dyu_Latn",
+    "dz": "dzo_Tibt",
+    "ee": "ewe_Latn",
+    "el": "ell_Grek",
+    "en": "eng_Latn",
+    "eo": "epo_Latn",
+    "es": "spa_Latn",
+    "et": "est_Latn",
+    "eu": "eus_Latn",
+    "fi": "fin_Latn",
+    "fj": "fij_Latn",
+    "fo": "fao_Latn",
+    "fon": "fon_Latn",
+    "fr": "fra_Latn",
+    "fur": "fur_Latn",
+    "fuv": "fuv_Latn",
+    "ga": "gle_Latn",
+    "gaz": "gaz_Latn",
+    "gd": "gla_Latn",
+    "gl": "glg_Latn",
+    "gn": "grn_Latn",
+    "gu": "guj_Gujr",
+    "ha": "hau_Latn",
+    "he": "heb_Hebr",
+    "hi": "hin_Deva",
+    "hne": "hne_Deva",
+    "hr": "hrv_Latn",
+    "ht": "hat_Latn",
+    "hu": "hun_Latn",
+    "hy": "hye_Armn",
+    "id": "ind_Latn",
+    "ig": "ibo_Latn",
+    "ilo": "ilo_Latn",
+    "is": "isl_Latn",
+    "it": "ita_Latn",
+    "ja": "jpn_Jpan",
+    "jv": "jav_Latn",
+    "ka": "kat_Geor",
+    "kab": "kab_Latn",
+    "kac": "kac_Latn",
+    "kam": "kam_Latn",
+    "kbp": "kbp_Latn",
+    "kea": "kea_Latn",
+    "kg": "kon_Latn",
+    "khk": "khk_Cyrl",
+    "ki": "kik_Latn",
+    "kk": "kaz_Cyrl",
+    "km": "khm_Khmr",
+    "kmb": "kmb_Latn",
+    "kmr": "kmr_Latn",
+    "kn": "kan_Knda",
+    "knc": "knc_Latn",
+    "ko": "kor_Hang",
+    "ks": "kas_Arab",
+    "ky": "kir_Cyrl",
+    "lb": "ltz_Latn",
+    "lg": "lug_Latn",
+    "li": "lim_Latn",
+    "lij": "lij_Latn",
+    "lmo": "lmo_Latn",
+    "ln": "lin_Latn",
+    "lo": "lao_Laoo",
+    "lt": "lit_Latn",
+    "ltg": "ltg_Latn",
+    "lua": "lua_Latn",
+    "luo": "luo_Latn",
+    "lus": "lus_Latn",
+    "lvs": "lvs_Latn",
+    "mag": "mag_Deva",
+    "mai": "mai_Deva",
+    "mar": "mar_Deva",
+    "mi": "mri_Latn",
+    "min": "min_Latn",
+    "mk": "mkd_Cyrl",
+    "ml": "mal_Mlym",
+    "mni": "mni_Beng",
+    "mos": "mos_Latn",
+    "mt": "mlt_Latn",
+    "my": "mya_Mymr",
+    "nb": "nob_Latn",
+    "nl": "nld_Latn",
+    "nn": "nno_Latn",
+    "no": "nob_Latn",
+    "npi": "npi_Deva",
+    "nso": "nso_Latn",
+    "nus": "nus_Latn",
+    "ny": "nya_Latn",
+    "oc": "oci_Latn",
+    "ory": "ory_Orya",
+    "pa": "pan_Guru",
+    "pag": "pag_Latn",
+    "pap": "pap_Latn",
+    "pbt": "pbt_Arab",
+    "pes": "pes_Arab",
+    "pl": "pol_Latn",
+    "plt": "plt_Latn",
+    "prs": "prs_Arab",
+    "pt": "por_Latn",
+    "quy": "quy_Latn",
+    "rn": "run_Latn",
+    "ro": "ron_Latn",
+    "ru": "rus_Cyrl",
+    "rw": "kin_Latn",
+    "sa": "san_Deva",
+    "sat": "sat_Beng",
+    "sc": "srd_Latn",
+    "scn": "scn_Latn",
+    "sd": "snd_Arab",
+    "sg": "sag_Latn",
+    "shn": "shn_Mymr",
+    "si": "sin_Sinh",
+    "sk": "slk_Latn",
+    "sl": "slv_Latn",
+    "sm": "smo_Latn",
+    "sn": "sna_Latn",
+    "so": "som_Latn",
+    "sr": "srp_Cyrl",
+    "ss": "ssw_Latn",
+    "st": "sot_Latn",
+    "su": "sun_Latn",
+    "sv": "swe_Latn",
+    "swh": "swh_Latn",
+    "szl": "szl_Latn",
+    "ta": "tam_Taml",
+    "taq": "taq_Latn",
+    "te": "tel_Telu",
+    "tg": "tgk_Cyrl",
+    "th": "tha_Thai",
+    "ti": "tir_Ethi",
+    "tk": "tuk_Latn",
+    "tl": "tgl_Latn",
+    "tn": "tsn_Latn",
+    "tpi": "tpi_Latn",
+    "tr": "tur_Latn",
+    "ts": "tso_Latn",
+    "tt": "tat_Cyrl",
+    "tum": "tum_Latn",
+    "tw": "twi_Latn",
+    "tzm": "tzm_Tfng",
+    "ug": "uig_Arab",
+    "uk": "ukr_Cyrl",
+    "umb": "umb_Latn",
+    "ur": "urd_Arab",
+    "uzn": "uzn_Latn",
+    "vec": "vec_Latn",
+    "vi": "vie_Latn",
+    "war": "war_Latn",
+    "wo": "wol_Latn",
+    "xh": "xho_Latn",
+    "ydd": "ydd_Hebr",
+    "yo": "yor_Latn",
+    "yue": "yue_Hant",
+    "zh": "zho_Hans",
+    "zsm": "zsm_Latn",
+    "zu": "zul_Latn",
+}
+