09 Dec, 2025

5 commits


08 Dec, 2025

8 commits


07 Dec, 2025

2 commits

  • 主要功能:
    1. 增量数据获取服务
       - 新增 IncrementalIndexerService 提供单个SPU数据获取
       - 新增 /indexer/spu/{spu_id} API接口
       - 服务启动时预加载分类映射等公共数据
       - 提取 SPUDocumentTransformer 统一全量和增量转换逻辑
       - 支持根据租户配置进行语言处理和翻译
    
    3. 租户配置系统
       - 租户配置合并到统一配置文件 config/config.yaml
       - 支持每个租户独立配置主语言和翻译选项
       - 租户162配置为翻译关闭(用于测试)
    
    4. 翻译功能集成
       - 翻译提示词作为DeepL API的context参数传递
       - 支持中英文提示词配置
       - 索引场景:同步翻译,使用缓存
       - 查询场景:异步翻译,立即返回
    
    测试:
    - 新增 indexer/test_indexing.py 和 query/test_translation.py
    - 验证租户162翻译关闭功能
    - 验证全量和增量索引功能
    tangwang
     
  • 添加 ThreadPoolExecutor 线程池用于异步翻译
    修改 translate_multi() 方法,支持 async_mode 参数(默认 True)
    添加 _get_cached_translation() 方法,快速获取缓存
    添加 _translate_async() 方法,异步执行翻译任务
    2. 异步翻译逻辑
    命中缓存:立即返回缓存结果
    未命中缓存:
    异步启动翻译任务(不阻塞)
    返回 None(本次查询不使用)
    翻译完成后自动存入缓存
    下次查询时可直接使用缓存结果
    3. QueryParser 更新
    调用 translate_multi() 时使用 async_mode=True
    过滤掉 None 值(未完成的翻译)
    优化日志输出,区分缓存命中和异步翻译
    工作流程
    首次查询:未命中缓存 → 异步翻译 → 返回空翻译 → 不阻塞
    翻译完成:结果存入缓存
    后续查询:命中缓存 → 立即返回 → 快速响应
    tangwang
     

05 Dec, 2025

4 commits


04 Dec, 2025

3 commits

  • tangwang
     
  • 核心功能:
    - 添加 multi_select 字段到 FacetConfig(默认为 true)
    - 实现 post_filter 支持 disjunctive faceting
    - 后端自动标记 facet 值的 selected 状态
    - 支持 specifications 和普通字段的 multi-select
    
    技术改进:
    - ESQueryBuilder: 分离 conjunctive/disjunctive filters
    - ResultFormatter: 根据 current_filters 标记 selected
    - Searcher: 传递 facet_configs 给 query builder
    
    文档更新:
    - 添加 multi_select_faceting.md 详细文档
    - 更新 API 对接指南,说明新功能
    - 添加测试脚本 test_multi_select_facet.py
    
    业界标准:
    - 遵循 Elasticsearch/Algolia/Amazon 的最佳实践
    - 提供探索式搜索体验
    - 前后端职责清晰分离
    tangwang
     
  • tangwang
     

03 Dec, 2025

3 commits

  • {
      "facets": [
        {
          "field": "category1_name",
          "size": 15,
          "type": "terms"
        },
        "specifications.color",
        "specifications.size"
      ]
    }
    
    {
      "facets": [
        {"field": "category1_name", "size": 15, "type": "terms"},
        {"field": "specifications.color", "size": 10, "type": "terms"},
        {"field": "specifications.size", "size": 10, "type": "terms"}
      ]
    }
    
    之前是上面的接口形式,主要是考虑 属性的分面, 因为 款式都是有限的 不需要设定 "size": 10, "type": "terms" 这些参数。
    
    但是从接口设计层面,最好按下面这样,这样的话 specifications.color 和 category1_name 的组装格式 完全一样。前端不需要感知 属性分面 和 类别等其他字段分面的差异。
    tangwang
     
  • tangwang
     
  • 2. mysql->ES数据灌入脚本优化。修改了多个字段的处理方式,完善日志,为以后抽出来服务供java全量增量调用做准备
    tangwang
     

02 Dec, 2025

7 commits

  • tangwang
     
  • 1. 加了一个配置searchable_option_dimensions,功能是配置子sku的option1_value option2_value option3_value 哪些参与检索(进索引、以及在线搜索的时候将对应字段纳入搜索field)。格式为list,选择三者中的一个或多个。
    
    2. 索引 @mappings/search_products.json 要加3个字段 option1_values option2_values option3_values,各自的 数据灌入(mysql->ES)的模块也要修改,这个字段是对子sku的option1_value option2_value option3_value分别提取去抽后得到的list。
    searchable_option_dimensions 中配置的,才进索引,比如 searchable_option_dimensions = ['option1'] 则 只对option1提取属性值去重组织list进入索引,其余两个字段为空
    
    3. 在线 对应的将 searchable_option_dimensions 中 对应的索引字段纳入 multi_match 的 fields,权重设为0.5 (各个字段的权重配置放到一起集中管理)
    
    1. 配置文件改动 (config/config.yaml)
    ✅ 在 spu_config 中添加了 searchable_option_dimensions 配置项,默认值为 ['option1', 'option2', 'option3']
    ✅ 添加了3个新字段定义:option1_values, option2_values, option3_values,类型为 KEYWORD,权重为 0.5
    ✅ 在 default 索引域的 fields 列表中添加了这3个字段,使其参与搜索
    2. ES索引Mapping改动 (mappings/search_products.json)
    ✅ 添加了3个新字段:option1_values, option2_values, option3_values,类型为 keyword
    3. 配置加载器改动 (config/config_loader.py)
    ✅ 在 SPUConfig 类中添加了 searchable_option_dimensions 字段
    ✅ 更新了配置解析逻辑,支持读取 searchable_option_dimensions
    ✅ 更新了配置转换为字典的逻辑
    4. 数据灌入改动 (indexer/spu_transformer.py)
    ✅ 在初始化时加载配置,获取 searchable_option_dimensions
    ✅ 在 _transform_spu_to_doc 方法中添加逻辑:
    从所有子SKU中提取 option1, option2, option3 值
    去重后存入 option1_values, option2_values, option3_values
    根据配置决定哪些字段实际写入数据(未配置的字段写空数组)
    
    =
    tangwang
     
  • tangwang
     
  • tangwang
     
  • 后端请求模型变更(api/models.py)
    SearchRequest.sku_filter_dimension 从 Optional[str] 改为 Optional[List[str]]。
    语义:列表表示一个或多个“维度标签”,例如:
    单维度:["color"]、["option1"]
    多维度:["color", "size"]、["option1", "option2"]
    描述更新为:对 维度组合进行分组,每个组合只保留一个 SKU。
    结果格式化与去重逻辑(api/result_formatter.py)
    ResultFormatter.format_search_results(..., sku_filter_dimension: Optional[List[str]] = None),调用处已同步更新。
    单维度旧逻辑升级为多维度逻辑:
    新方法:_filter_skus_by_dimensions(skus, dimensions, option1_name, option2_name, option3_name, specifications)。
    维度解析规则(按顺序处理,并去重):
    若维度是 option1 / option2 / option3 → 对应 option1_value / option2_value / option3_value。
    否则,将维度字符串转小写后,分别与 option1_name / option2_name / option3_name 对比,相等则映射到对应的 option*_value。
    未能映射到任何字段的维度会被忽略。
    对每个 SKU:
    按解析出的字段列表(例如 ["option1_value", "option2_value"])取值,组成 key,如 ("red", "L");None 用空串 ""。
    按 key 分组,每个 key 只保留遇到的第一个 SKU。
    若列表为空或所有维度都无法解析,则 不做过滤,返回原始 skus。
    Searcher 参数类型同步(search/searcher.py)
    Searcher.search(...) 中 sku_filter_dimension 参数类型从 Optional[str] 改为 Optional[List[str]]。
    传给 ResultFormatter.format_search_results 时,直接传该列表。
    前端参数格式调整(frontend/static/js/app.js)
    输入框 #skuFilterDimension 依旧是一个文本框,但解析方式改为:
    函数 getSkuFilterDimension():
    读取文本,如:"color" 或 "color,size" 或 "option1, color"。
    用逗号 , 拆分,trim() 后过滤空串,返回 字符串数组,例如:
    "color" → ["color"]
    "color,size" → ["color", "size"]
    若最终数组为空,则返回 null。
    搜索请求体中仍使用字段名 sku_filter_dimension,但现在值是 string[] 或 null:
        body: JSON.stringify({      // ...      sku_filter_dimension: skuFilterDimension,  // 例如 ["color", "size"]      debug: state.debug    })
    文档更新(docs/搜索API对接指南.md)
    请求体示例中的类型由:
    "sku_filter_dimension": "string"
    改为:
    "sku_filter_dimension": ["string"]
    参数表中:
    从 string 改为 array[string],说明为“维度列表,按组合分组,每个组合保留一个 SKU”。
    功能说明章节“SKU筛选维度 (sku_filter_dimension)”已调整为 列表语义 + 组合去重,并补充了示例:
    单维度:
          {        "query": "芭比娃娃",        "sku_filter_dimension": ["color"]      }
    多维度组合:
          {        "query": "芭比娃娃",        "sku_filter_dimension": ["color", "size"]      }
    使用方式总结
    单维度去重(保持旧行为的等价写法)
    旧:"sku_filter_dimension": "color"
    新:"sku_filter_dimension": ["color"]
    多维度组合去重(你新提的需求)
    例如希望“每个 SPU 下,同一颜色+尺码组合只保留一个 SKU”:
        {      "query": "芭比娃娃",      "sku_filter_dimension": ["color", "size"]    }
    tangwang
     
  • sku_filter_dimension=color
    sku_filter_dimension=option1 / option2 /option3
    以上两种方式都可以
    tangwang
     
  • query config/ranking config优化
    tangwang
     

01 Dec, 2025

3 commits


29 Nov, 2025

1 commit


28 Nov, 2025

1 commit

  • 脚本:scripts/csv_to_excel_multi_variant.py
    
    主要功能:
    单一款式商品(S 类型)- 30%
    商品属性为 S
    不填写 option1/option2/option3
    包含所有商品信息(标题、描述、价格、库存等)
    多款式商品(M+P 类型)- 70%
    M 行(商品主体):
    商品属性为 M
    填写商品主体信息(标题、描述、SEO、分类等)
    option1="color", option2="size", option3="material"
    不填写价格、库存、SKU 等子款式信息
    P 行(子款式):
    商品属性为 P
    商品标题与 M 行一致
    option1/2/3 填写具体值(color、size、material 的笛卡尔积)
    每个 SKU 有独立的价格、库存、SKU 编码等
    多款式商品生成规则:
    Color(颜色):从 color1 到 color30 中随机选择 2-10 个
    Size(尺寸):从 1-30 中随机选择 4-8 个
    Material(材质):从商品标题按空格分割后的最后一个字符串提取(去掉特殊字符)
    笛卡尔积:生成所有组合的 P 行(例如:3 个颜色 × 5 个尺寸 × 1 个材质 = 15 个 SKU)
    tangwang
     

27 Nov, 2025

3 commits

  • 1. 搜索API对接指南.md
    在“精确匹配过滤器”部分添加了 specifications 嵌套过滤说明
    支持单个规格过滤和多个规格过滤(OR 逻辑)
    在“分面配置”部分完善了 specifications 分面说明
    添加了两种分面模式:所有规格名称和指定规格名称
    在“常见场景示例”部分添加了场景5-8,包含规格过滤和分面的完整示例
    2. 搜索API速查表.md
    在“精确匹配过滤”部分添加了 specifications 过滤的快速参考
    在“分面搜索”部分添加了 specifications 分面的快速参考
    更新了完整示例,包含 specifications 的使用
    3. Search-API-Examples.md
    在“过滤器使用”部分添加了示例4-6,展示 specifications 过滤
    在“分面搜索”部分添加了示例2-3,展示 specifications 分面
    更新了 Python 和 JavaScript 完整示例,包含 specifications 的使用
    在“常见使用场景”部分添加了场景2.1,展示带规格过滤的搜索结果页
    4. 索引字段说明v2.md
    更新了 specifications 字段的查询示例,包含 API 格式和 ES 查询结构
    添加了两种分面模式的说明和示例
    更新了“分面字段”说明,明确支持指定规格名称的分面
    
    5. 补充参数
    参数说明:sku_filter_dimension 是可选参数,用于按指定维度过滤每个SPU下的SKU
    支持的维度:
    直接选项字段:option1、option2、option3
    规格名称:通过 option1_name、option2_name、option3_name 匹配(如 color、size)
    tangwang
     
  • 1. 搜索API对接指南.md
    在“精确匹配过滤器”部分添加了 specifications 嵌套过滤说明
    支持单个规格过滤和多个规格过滤(OR 逻辑)
    在“分面配置”部分完善了 specifications 分面说明
    添加了两种分面模式:所有规格名称和指定规格名称
    在“常见场景示例”部分添加了场景5-8,包含规格过滤和分面的完整示例
    2. 搜索API速查表.md
    在“精确匹配过滤”部分添加了 specifications 过滤的快速参考
    在“分面搜索”部分添加了 specifications 分面的快速参考
    更新了完整示例,包含 specifications 的使用
    3. Search-API-Examples.md
    在“过滤器使用”部分添加了示例4-6,展示 specifications 过滤
    在“分面搜索”部分添加了示例2-3,展示 specifications 分面
    更新了 Python 和 JavaScript 完整示例,包含 specifications 的使用
    在“常见使用场景”部分添加了场景2.1,展示带规格过滤的搜索结果页
    4. 索引字段说明v2.md
    更新了 specifications 字段的查询示例,包含 API 格式和 ES 查询结构
    添加了两种分面模式的说明和示例
    更新了“分面字段”说明,明确支持指定规格名称的分面
    tangwang
     
  • 1. 前端传递的过滤条件永远是要起作用的
    2. 然后召回模块包括文本相关性召回(中英文都是用)和向量召回,两者相互补充。
    3. 套用function_score以支持两种打分融合和各种提权字段
    4. 只需要build_query 这一层。
    
    实际操作:
    1. 架构简化
    移除了 MultiLanguageQueryBuilder 层级
    只保留单层的 ESQueryBuilder.build_query 方法
    2. 查询结构重构
    实现了 filters and (text_recall or embedding_recall) 结构:
    前端过滤条件:永远起作用(放在 filter 中)
    文本召回:同时搜索中英文字段(multi_match 覆盖 title_zh/en, brief_zh/en 等)
    向量召回:KNN 查询(独立参数,ES 会自动合并)
    Function_score:包装召回部分,支持提权字段配置
    3. 文本匹配字段更新
    在 DEFAULT_MATCH_FIELDS 中添加了中英文字段:
    中文:title_zh, brief_zh, description_zh, vendor_zh, category_path_zh, category_name_zh
    英文:title_en, brief_en, description_en, vendor_en, category_path_en, category_name_en
    语言无关:tags
    4. Function_score 框架保留
    保留了 function_score 配置框架(FUNCTION_SCORE_CONFIG)
    支持 filter_weight、field_value_factor、decay 等提权函数
    可以从配置中扩展提权字段
    5. 测试验证
    所有功能测试通过:
    基本文本搜索
    带过滤条件的搜索
    范围过滤
    分面搜索
    英文查询
    tangwang