ai-saas / saas-search

02 Mar, 2026

1 commit

2e48a32d doc Browse File »

tangwang
2026-03-02 12:33:39 +0800

06 Jan, 2026

1 commit

d7d48f52 改动（mapping + 灌入结构） ... Browse File »

mappings/search_products.json：把原来的 title_zh/title_en/brief_zh/... 改成 按语言 key 的对象结构（ /products/_doc/1 { "title": {"en":...} } ）
同时在这些字段下 预置了全部 analyzer 语言:
arabic, armenian, basque, brazilian, bulgarian, catalan, chinese, cjk, czech, danish, dutch, english, finnish, french, galician, german, greek, hindi, hungarian, indonesian, italian, norwegian, persian, portuguese, romanian, russian, spanish, swedish, turkish, thai

实现为 type: object + properties，同时满足“按语言灌入”和“按语言 analyzer”。
索引灌入（全量/增量/transformer）已同步改完
indexer/document_transformer.py：输出从 title_zh/title_en/... 改为：
title: {<primary_lang>: 原文, en?: 翻译, zh?: 翻译}
brief/description/vendor 同理
category_path/category_name_text 也改为语言对象（避免查询侧继续依赖旧字段）
indexer/incremental_service.py：embedding 取值从 title_en/title_zh 改为从 title 对象里优先取 en，否则取 zh，否则取任一可用语言。
查询侧与配置、API/文档已同步
search/es_query_builder.py：查询字段统一改成点路径：title.zh / title.en / vendor.zh / vendor.zh.keyword / category_name_text.zh 等。
config/config.yaml：field boosts / indexes 里的字段名同步为新点路径。
API & formatter：
api/result_formatter.py 已支持新结构（并保留对旧 *_zh/_en 的兼容兜底）。
api/models.py、相关 docs/examples 里的 vendor_zh.keyword 等已更新为 vendor.zh.keyword。
文档/脚本：docs/、README.md、scripts/ 里所有旧字段名引用已批量替换为新结构。

2026-01-06 19:42:20 +0800

19 Dec, 2025

1 commit

b2e50710 BgeEncoder.encode(...) 返回：np.ndarray(dtype=object)，每个元素要么是 np.ndarray，要么是 None。 ... Browse File »
```
cache/service 任一环节返回坏 embedding（含 NaN/Inf/空/非 ndarray）都会 视为 None，并且坏 cache 会被自动删除。
```
tangwang
2025-12-19 18:05:59 +0800

03 Dec, 2025

1 commit

13320ac6 分面接口修改： ... Browse File »

{
  "facets": [
    {
      "field": "category1_name",
      "size": 15,
      "type": "terms"
    },
    "specifications.color",
    "specifications.size"
  ]
}

{
  "facets": [
    {"field": "category1_name", "size": 15, "type": "terms"},
    {"field": "specifications.color", "size": 10, "type": "terms"},
    {"field": "specifications.size", "size": 10, "type": "terms"}
  ]
}

之前是上面的接口形式，主要是考虑 属性的分面， 因为 款式都是有限的 不需要设定 "size": 10, "type": "terms" 这些参数。

但是从接口设计层面，最好按下面这样，这样的话 specifications.color 和 category1_name 的组装格式 完全一样。前端不需要感知 属性分面 和 类别等其他字段分面的差异。

2025-12-03 21:20:50 +0800

01 Dec, 2025

1 commit

85f08823 过滤逻辑 ... Browse File »
```
不同维度（不同的 name）：求交集
相同维度（相同的 name）：求并集
```
tangwang
2025-12-01 09:50:49 +0800

29 Nov, 2025

1 commit

a10a89a3 构造测试数据用于测试分类和三种属性的分面。 Browse File »

tangwang
2025-11-29 09:53:31 +0800

27 Nov, 2025

1 commit

f7d3cf70 更新文档 ... Browse File »

1. 搜索API对接指南.md
在“精确匹配过滤器”部分添加了 specifications 嵌套过滤说明
支持单个规格过滤和多个规格过滤（OR 逻辑）
在“分面配置”部分完善了 specifications 分面说明
添加了两种分面模式：所有规格名称和指定规格名称
在“常见场景示例”部分添加了场景5-8，包含规格过滤和分面的完整示例
2. 搜索API速查表.md
在“精确匹配过滤”部分添加了 specifications 过滤的快速参考
在“分面搜索”部分添加了 specifications 分面的快速参考
更新了完整示例，包含 specifications 的使用
3. Search-API-Examples.md
在“过滤器使用”部分添加了示例4-6，展示 specifications 过滤
在“分面搜索”部分添加了示例2-3，展示 specifications 分面
更新了 Python 和 JavaScript 完整示例，包含 specifications 的使用
在“常见使用场景”部分添加了场景2.1，展示带规格过滤的搜索结果页
4. 索引字段说明v2.md
更新了 specifications 字段的查询示例，包含 API 格式和 ES 查询结构
添加了两种分面模式的说明和示例
更新了“分面字段”说明，明确支持指定规格名称的分面

2025-11-27 11:04:14 +0800

25 Nov, 2025

2 commits

5dcddc06 索引重构 ... Browse File »

主要是对 分类 属性 子sku 等重要字段的处理。
参考文档《 @docs/索引字段说明v2-mapping结构.md 》《 @docs/索引字段说明v2.md 》

feat:
1. 更新 field_types.py
添加 hanlp_index/hanlp_standard 分析器映射（映射到 CHINESE_ECOMMERCE/CHINESE_ECOMMERCE_QUERY）
支持 keyword_normalizer 配置（用于 vendor.keyword 的 lowercase normalizer）
更新 get_default_analyzers() 添加 hanlp 分析器和 lowercase normalizer
修复 image_embedding 的 url 字段类型为 text

2. 更新 config.yaml（32-207行）
移除无用字段：handle, seo_title, seo_description, seo_keywords, shoplazza_created_at, shoplazza_updated_at
添加中英文字段：title_zh, title_en, brief_zh, brief_en, description_zh, description_en, vendor_zh, vendor_en
添加 category 多层级字段：category_path_zh, category_path_en, category_name_zh, category_name_en, category_id, category_name, category_level, category1_name, category2_name, category3_name
添加 specifications 嵌套字段
添加 option 名称字段：option1_name, option2_name, option3_name
添加 SKU 扁平化字段：sku_prices, sku_weights, sku_weight_units, total_inventory
更新 skus 嵌套结构以匹配目标 mapping
添加 image_embedding 嵌套字段
更新 indexes 配置以使用新字段名

3. 更新 config_loader.py
添加 keyword_normalizer 字段支持

4. 重构 spu_transformer.py
添加 load_option_data() 方法从 option 表加载数据
更新 transform_batch() 加载 option 数据
重构 _transform_spu_to_doc()：
实现中英文字段映射（暂时只填充中文）
实现 category 多层级字段映射和 category_path 解析
实现 specifications 构建（从 option 表获取 name，从 SKU 获取 value）
实现 option 名称字段映射
实现 SKU 扁平化字段计算
更新 skus 嵌套结构
重构 _transform_sku_row() 以匹配新的 SKU 结构
移除 SEO 和 handle 字段的处理

2025-11-25 22:08:38 +0800

39e63ad1 docs Browse File »

tangwang
2025-11-25 17:32:52 +0800