18 Dec, 2025

3 commits

  • 索引的两项功能:
    1. 多语言。 店铺配置的语言如果不等于zh,那么要调用翻译 获得中文翻译结果,同时 如果不等于en,要翻译en的结果。
    要缓存到redis。 先查询缓存,没命中缓存再调用翻译,然后存入redis缓存起来。
    这些逻辑应该是 @query/translator.py 内部的,不需要调用的地方关心。但是现在是  DictCache,直接改掉,改为redis的缓存
    
    2. 填充 标题的向量化字段。如果该店铺的标题向量化打开,那么应该请求向量化模型根据英文的title得到embedding。使用 BgeEncoder.
    
    以上两个模块的缓存,过期时间都是 最近多长时间内没有访问过。
    
    feat:
    1. 更新 REDIS_CONFIG 配置
    在 config/env_config.py 中添加了用户提供的配置项(snapshot_db, translation_cache_expire_days, translation_cache_prefix 等)
    2. 修改 query/translator.py
    将 DictCache 改为 Redis 缓存
    实现了 translate_for_indexing 方法,自动处理多语言翻译:
    如果店铺语言不等于 zh,自动翻译成 zh
    如果店铺语言不等于 en,自动翻译成 en
    翻译逻辑封装在 translator.py 内部,调用方无需关心
    3. 修改 embeddings/text_encoder.py
    在 BgeEncoder 中添加了 Redis 缓存
    实现了滑动过期策略(每次访问时重置过期时间)
    缓存逻辑参考了提供的 CacheManager 对象
    4. 修改 indexer/document_transformer.py
    添加了 encoder 和 enable_title_embedding 参数
    实现了 _fill_title_embedding 方法,使用英文标题(title_en)生成 embedding
    更新了 _fill_text_fields 方法,使用新的 translate_for_indexing 方法
    5. 更新 indexer/indexing_utils.py
    更新了 create_document_transformer 函数,支持新的 encoder 和 enable_title_embedding 参数
    如果启用标题向量化且未提供 encoder,会自动初始化 BgeEncoder
    tangwang
     
  • 1. 添加了两个开关参数
    --keep-spu-if-parent-missing:保留父ASIN不在变体列表中的SPU(默认:丢弃整个SPU)
    --fix-sku-if-title-mismatch:修正标题不一致的SKU而不是丢弃(默认:丢弃标题不一致的SKU)
    2. 实现了相关逻辑
    父ASIN缺失处理:
    默认:当父ASIN不在变体列表中时,打印警告并丢弃整个SPU
    使用 --keep-spu-if-parent-missing:保留SPU,使用第一个变体作为主商品
    标题不一致处理:
    默认:当变体标题与主商品不一致时,打印日志并丢弃该SKU
    使用 --fix-sku-if-title-mismatch:修正变体标题为主商品标题
    tangwang
     
  • tangwang
     

17 Dec, 2025

9 commits


16 Dec, 2025

6 commits


09 Dec, 2025

6 commits


08 Dec, 2025

8 commits


07 Dec, 2025

2 commits

  • 主要功能:
    1. 增量数据获取服务
       - 新增 IncrementalIndexerService 提供单个SPU数据获取
       - 新增 /indexer/spu/{spu_id} API接口
       - 服务启动时预加载分类映射等公共数据
       - 提取 SPUDocumentTransformer 统一全量和增量转换逻辑
       - 支持根据租户配置进行语言处理和翻译
    
    3. 租户配置系统
       - 租户配置合并到统一配置文件 config/config.yaml
       - 支持每个租户独立配置主语言和翻译选项
       - 租户162配置为翻译关闭(用于测试)
    
    4. 翻译功能集成
       - 翻译提示词作为DeepL API的context参数传递
       - 支持中英文提示词配置
       - 索引场景:同步翻译,使用缓存
       - 查询场景:异步翻译,立即返回
    
    测试:
    - 新增 indexer/test_indexing.py 和 query/test_translation.py
    - 验证租户162翻译关闭功能
    - 验证全量和增量索引功能
    tangwang
     
  • 添加 ThreadPoolExecutor 线程池用于异步翻译
    修改 translate_multi() 方法,支持 async_mode 参数(默认 True)
    添加 _get_cached_translation() 方法,快速获取缓存
    添加 _translate_async() 方法,异步执行翻译任务
    2. 异步翻译逻辑
    命中缓存:立即返回缓存结果
    未命中缓存:
    异步启动翻译任务(不阻塞)
    返回 None(本次查询不使用)
    翻译完成后自动存入缓存
    下次查询时可直接使用缓存结果
    3. QueryParser 更新
    调用 translate_multi() 时使用 async_mode=True
    过滤掉 None 值(未完成的翻译)
    优化日志输出,区分缓存命中和异步翻译
    工作流程
    首次查询:未命中缓存 → 异步翻译 → 返回空翻译 → 不阻塞
    翻译完成:结果存入缓存
    后续查询:命中缓存 → 立即返回 → 快速响应
    tangwang
     

05 Dec, 2025

4 commits


04 Dec, 2025

2 commits

  • tangwang
     
  • 核心功能:
    - 添加 multi_select 字段到 FacetConfig(默认为 true)
    - 实现 post_filter 支持 disjunctive faceting
    - 后端自动标记 facet 值的 selected 状态
    - 支持 specifications 和普通字段的 multi-select
    
    技术改进:
    - ESQueryBuilder: 分离 conjunctive/disjunctive filters
    - ResultFormatter: 根据 current_filters 标记 selected
    - Searcher: 传递 facet_configs 给 query builder
    
    文档更新:
    - 添加 multi_select_faceting.md 详细文档
    - 更新 API 对接指南,说明新功能
    - 添加测试脚本 test_multi_select_facet.py
    
    业界标准:
    - 遵循 Elasticsearch/Algolia/Amazon 的最佳实践
    - 提供探索式搜索体验
    - 前后端职责清晰分离
    tangwang