tangwang / SearchEngine

02 Dec, 2025

1 commit

9f96d6f3 短query不用语义搜索 ... Browse Code »
```
query config/ranking config优化
```
tangwang
2025-12-02 13:38:31 +0800

01 Dec, 2025

3 commits

99bea633 add logs Browse Code »

tangwang
2025-12-01 15:21:22 +0800
e2539fd3 调试信息 Browse Code »

tangwang
2025-12-01 12:42:20 +0800
85f08823 过滤逻辑 ... Browse Code »
```
不同维度（不同的 name）：求交集
相同维度（相同的 name）：求并集
```
tangwang
2025-12-01 09:50:49 +0800

29 Nov, 2025

1 commit

a10a89a3 构造测试数据用于测试分类和三种属性的分面。 Browse Code »

tangwang
2025-11-29 09:53:31 +0800

28 Nov, 2025

1 commit

acf1349c fake 批量导入数据的脚步（多款式 ) ... Browse Code »

脚本：scripts/csv_to_excel_multi_variant.py

主要功能：
单一款式商品（S 类型）- 30%
商品属性为 S
不填写 option1/option2/option3
包含所有商品信息（标题、描述、价格、库存等）
多款式商品（M+P 类型）- 70%
M 行（商品主体）：
商品属性为 M
填写商品主体信息（标题、描述、SEO、分类等）
option1="color", option2="size", option3="material"
不填写价格、库存、SKU 等子款式信息
P 行（子款式）：
商品属性为 P
商品标题与 M 行一致
option1/2/3 填写具体值（color、size、material 的笛卡尔积）
每个 SKU 有独立的价格、库存、SKU 编码等
多款式商品生成规则：
Color（颜色）：从 color1 到 color30 中随机选择 2-10 个
Size（尺寸）：从 1-30 中随机选择 4-8 个
Material（材质）：从商品标题按空格分割后的最后一个字符串提取（去掉特殊字符）
笛卡尔积：生成所有组合的 P 行（例如：3 个颜色 × 5 个尺寸 × 1 个材质 = 15 个 SKU）

2025-11-28 13:33:20 +0800

27 Nov, 2025

3 commits

ca91352a 更新文档 ... Browse Code »

1. 搜索API对接指南.md
在“精确匹配过滤器”部分添加了 specifications 嵌套过滤说明
支持单个规格过滤和多个规格过滤（OR 逻辑）
在“分面配置”部分完善了 specifications 分面说明
添加了两种分面模式：所有规格名称和指定规格名称
在“常见场景示例”部分添加了场景5-8，包含规格过滤和分面的完整示例
2. 搜索API速查表.md
在“精确匹配过滤”部分添加了 specifications 过滤的快速参考
在“分面搜索”部分添加了 specifications 分面的快速参考
更新了完整示例，包含 specifications 的使用
3. Search-API-Examples.md
在“过滤器使用”部分添加了示例4-6，展示 specifications 过滤
在“分面搜索”部分添加了示例2-3，展示 specifications 分面
更新了 Python 和 JavaScript 完整示例，包含 specifications 的使用
在“常见使用场景”部分添加了场景2.1，展示带规格过滤的搜索结果页
4. 索引字段说明v2.md
更新了 specifications 字段的查询示例，包含 API 格式和 ES 查询结构
添加了两种分面模式的说明和示例
更新了“分面字段”说明，明确支持指定规格名称的分面

5. 补充参数
参数说明：sku_filter_dimension 是可选参数，用于按指定维度过滤每个SPU下的SKU
支持的维度：
直接选项字段：option1、option2、option3
规格名称：通过 option1_name、option2_name、option3_name 匹配（如 color、size）

2025-11-27 12:13:55 +0800

f7d3cf70 更新文档 ... Browse Code »

1. 搜索API对接指南.md
在“精确匹配过滤器”部分添加了 specifications 嵌套过滤说明
支持单个规格过滤和多个规格过滤（OR 逻辑）
在“分面配置”部分完善了 specifications 分面说明
添加了两种分面模式：所有规格名称和指定规格名称
在“常见场景示例”部分添加了场景5-8，包含规格过滤和分面的完整示例
2. 搜索API速查表.md
在“精确匹配过滤”部分添加了 specifications 过滤的快速参考
在“分面搜索”部分添加了 specifications 分面的快速参考
更新了完整示例，包含 specifications 的使用
3. Search-API-Examples.md
在“过滤器使用”部分添加了示例4-6，展示 specifications 过滤
在“分面搜索”部分添加了示例2-3，展示 specifications 分面
更新了 Python 和 JavaScript 完整示例，包含 specifications 的使用
在“常见使用场景”部分添加了场景2.1，展示带规格过滤的搜索结果页
4. 索引字段说明v2.md
更新了 specifications 字段的查询示例，包含 API 格式和 ES 查询结构
添加了两种分面模式的说明和示例
更新了“分面字段”说明，明确支持指定规格名称的分面

2025-11-27 11:04:14 +0800

f0d020c3 多语言查询改为只支持中英文两种，filters and ( text_call or embedding_recall)，然后 function_score 支持新鲜度等提权字段 ... Browse Code »

1. 前端传递的过滤条件永远是要起作用的
2. 然后召回模块包括文本相关性召回（中英文都是用）和向量召回，两者相互补充。
3. 套用function_score以支持两种打分融合和各种提权字段
4. 只需要build_query 这一层。

实际操作：
1. 架构简化
移除了 MultiLanguageQueryBuilder 层级
只保留单层的 ESQueryBuilder.build_query 方法
2. 查询结构重构
实现了 filters and (text_recall or embedding_recall) 结构：
前端过滤条件：永远起作用（放在 filter 中）
文本召回：同时搜索中英文字段（multi_match 覆盖 title_zh/en, brief_zh/en 等）
向量召回：KNN 查询（独立参数，ES 会自动合并）
Function_score：包装召回部分，支持提权字段配置
3. 文本匹配字段更新
在 DEFAULT_MATCH_FIELDS 中添加了中英文字段：
中文：title_zh, brief_zh, description_zh, vendor_zh, category_path_zh, category_name_zh
英文：title_en, brief_en, description_en, vendor_en, category_path_en, category_name_en
语言无关：tags
4. Function_score 框架保留
保留了 function_score 配置框架（FUNCTION_SCORE_CONFIG）
支持 filter_weight、field_value_factor、decay 等提权函数
可以从配置中扩展提权字段
5. 测试验证
所有功能测试通过：
基本文本搜索
带过滤条件的搜索
范围过滤
分面搜索
英文查询

2025-11-27 09:12:44 +0800

26 Nov, 2025

2 commits

577ec972 返回给前端的字段、格式适配。主要包括字段配置、前端补充一个语言字段处理title_en title_zh等语言选择、分面信息的提取等 Browse Code »

tangwang
2025-11-26 22:35:07 +0800
bf89b597 feat(search): adapt engine to new SPU-level index, mapping and facets Browse Code »

tangwang
2025-11-26 21:18:58 +0800

25 Nov, 2025

3 commits

59b0a342 创建手写 mapping JSON ... Browse Code »

mappings/search_products.json - 完整的ES索引配置（settings + mappings）
基于 docs/索引字段说明v2-mapping结构.md
简化 mapping_generator.py
移除所有config依赖
直接使用 load_mapping() 从JSON文件加载
保留工具函数：create_index_if_not_exists, delete_index_if_exists, update_mapping
更新数据导入脚本
scripts/ingest_shoplazza.py - 移除ConfigLoader依赖
直接使用 load_mapping() 和 DEFAULT_INDEX_NAME
更新indexer模块
indexer/__init__.py - 更新导出
indexer/bulk_indexer.py - 简化IndexingPipeline，移除config依赖
创建查询配置常量
search/query_config.py - 硬编码字段列表和配置项

使用方式
创建索引：
from indexer.mapping_generator import load_mapping, create_index_if_not_existsfrom utils.es_client import ESClientes_client = ESClient(hosts=["http://localhost:9200"])mapping = load_mapping()create_index_if_not_exists(es_client, "search_products", mapping)
数据导入：
python scripts/ingest_shoplazza.py \    --db-host localhost \    --db-database saas \    --db-username root \    --db-password password \    --tenant-id "1" \    --es-host http://localhost:9200 \    --recreate

注意事项
修改mapping：直接编辑 mappings/search_products.json
字段映射：spu_transformer.py 中硬编码，与mapping保持一致
config目录：保留但不再使用，可后续清理
search模块：仍依赖config

2025-11-25 22:46:51 +0800

5dcddc06 索引重构 ... Browse Code »

主要是对 分类 属性 子sku 等重要字段的处理。
参考文档《 @docs/索引字段说明v2-mapping结构.md 》《 @docs/索引字段说明v2.md 》

feat:
1. 更新 field_types.py
添加 hanlp_index/hanlp_standard 分析器映射（映射到 CHINESE_ECOMMERCE/CHINESE_ECOMMERCE_QUERY）
支持 keyword_normalizer 配置（用于 vendor.keyword 的 lowercase normalizer）
更新 get_default_analyzers() 添加 hanlp 分析器和 lowercase normalizer
修复 image_embedding 的 url 字段类型为 text

2. 更新 config.yaml（32-207行）
移除无用字段：handle, seo_title, seo_description, seo_keywords, shoplazza_created_at, shoplazza_updated_at
添加中英文字段：title_zh, title_en, brief_zh, brief_en, description_zh, description_en, vendor_zh, vendor_en
添加 category 多层级字段：category_path_zh, category_path_en, category_name_zh, category_name_en, category_id, category_name, category_level, category1_name, category2_name, category3_name
添加 specifications 嵌套字段
添加 option 名称字段：option1_name, option2_name, option3_name
添加 SKU 扁平化字段：sku_prices, sku_weights, sku_weight_units, total_inventory
更新 skus 嵌套结构以匹配目标 mapping
添加 image_embedding 嵌套字段
更新 indexes 配置以使用新字段名

3. 更新 config_loader.py
添加 keyword_normalizer 字段支持

4. 重构 spu_transformer.py
添加 load_option_data() 方法从 option 表加载数据
更新 transform_batch() 加载 option 数据
重构 _transform_spu_to_doc()：
实现中英文字段映射（暂时只填充中文）
实现 category 多层级字段映射和 category_path 解析
实现 specifications 构建（从 option 表获取 name，从 SKU 获取 value）
实现 option 名称字段映射
实现 SKU 扁平化字段计算
更新 skus 嵌套结构
重构 _transform_sku_row() 以匹配新的 SKU 结构
移除 SEO 和 handle 字段的处理

2025-11-25 22:08:38 +0800

39e63ad1 docs Browse Code »

tangwang
2025-11-25 17:32:52 +0800

20 Nov, 2025

2 commits

1ad371d1 <索引方案.md> Browse Code »

tangwang
2025-11-20 14:39:49 +0800
4503d8bf 更新文档《索引方案.md》 Browse Code »

tangwang
2025-11-20 14:39:14 +0800

18 Nov, 2025

2 commits

3a33657d 索引文档修改 Browse Code »

tangwang
2025-11-18 20:13:16 +0800
15e63baf 索引文档修改 Browse Code »

tangwang
2025-11-18 14:03:15 +0800

17 Nov, 2025

1 commit

97a5d59d 文档修改 Browse Code »

tangwang
2025-11-17 18:13:47 +0800

14 Nov, 2025

21 commits

b2d89de1 文档完善ush Browse Code »

tangwang
2025-11-14 20:14:13 +0800
1807dae2 文档完善ush Browse Code »

tangwang
2025-11-14 20:09:22 +0800
1d4cf59f 文档完善ush Browse Code »

tangwang
2025-11-14 20:08:53 +0800
8daa903a 文档完善ush Browse Code »

tangwang
2025-11-14 20:07:39 +0800
f65f6dd0 文档完善ush Browse Code »

tangwang
2025-11-14 19:47:16 +0800
b5ad4910 文档完善 Browse Code »

tangwang
2025-11-14 19:46:08 +0800
062b97bc 文档完善 Browse Code »

tangwang
2025-11-14 19:41:40 +0800
cadc77b6 索引字段名、变量名、API数据结构字段名都对齐spu/sku表 Browse Code »

tangwang
2025-11-14 18:51:31 +0800
3cf1c64d 文档完善 Browse Code »

tangwang
2025-11-14 18:00:49 +0800
af249836 文档完善 Browse Code »

tangwang
2025-11-14 17:47:37 +0800
8d227b96 文档完善 Browse Code »

tangwang
2025-11-14 17:44:18 +0800
b0ad8e89 文档完善 Browse Code »

tangwang
2025-11-14 17:43:45 +0800
ddc4abd1 文档完善 Browse Code »

tangwang
2025-11-14 17:15:59 +0800
9d186e7c 文档完善 Browse Code »

tangwang
2025-11-14 16:56:00 +0800
9823d236 文档完善 Browse Code »

tangwang
2025-11-14 16:43:57 +0800
ec44ff39 文档完善 Browse Code »

tangwang
2025-11-14 16:39:49 +0800
bf4968cf 文档完善 Browse Code »

tangwang
2025-11-14 14:40:20 +0800
4a677843 文档完善 Browse Code »

tangwang
2025-11-14 14:32:41 +0800
670c701f 文档完善 Browse Code »

tangwang
2025-11-14 14:06:00 +0800
331ea682 文档完善 Browse Code »

tangwang
2025-11-14 13:48:31 +0800
38f530ff 文档完善 Browse Code »

tangwang
2025-11-14 13:36:14 +0800