From 062b97bc91bf0ba04450bef627172ccdce7aa63d Mon Sep 17 00:00:00 2001 From: tangwang Date: Fri, 14 Nov 2025 19:41:40 +0800 Subject: [PATCH] 文档完善 --- docs/索引字段说明.md | 73 +++++++++++++++++++++++++------------------------------------------------ 1 file changed, 25 insertions(+), 48 deletions(-) diff --git a/docs/索引字段说明.md b/docs/索引字段说明.md index ba0b688..a8bc0f4 100644 --- a/docs/索引字段说明.md +++ b/docs/索引字段说明.md @@ -24,9 +24,9 @@ ## 索引类型与处理说明 -### 文本字段(多语言) +### 文本字段 -- **电商通用分析-中文** +- **TEXT** (电商通用分析-多语言通用) ```json { "type": "text", @@ -34,35 +34,27 @@ "search_analyzer": "hanlp_standard" } ``` -- **电商通用分析-英文** +- **TEXT_ZH** (电商通用分析-中文) ```json - { "type": "text", "analyzer": "english" } - ``` -- **电商通用分析-日文** - ```json - { "type": "text", "analyzer": "japanese" } - ``` -- **电商通用分析-阿拉伯文** - ```json - { "type": "text", "analyzer": "arabic" } - ``` -- **电商通用分析-西班牙文** - ```json - { "type": "text", "analyzer": "spanish" } + { + "type": "text", + "analyzer": "hanlp_index", + "search_analyzer": "hanlp_standard" + } ``` -- **电商通用分析-俄文** +- **TEXT_EN** (电商通用分析-中文) ```json - { "type": "text", "analyzer": "russian" } + { "type": "text", "analyzer": "english" } ``` -### 关键词字段 +### KEYWORD(关键词字段) - ES 输入支持字符串或字符串数组,统一写入 keyword 字段,默认大小写敏感,必要时可通过 normalizer 统一大小写。 ```json { "type": "keyword" } ``` -### Hybrid Keyword+Text(HKText)字段 +### HKText(Hybrid Keyword+Text 字段) - 该类型用于“精确匹配优先 + 模糊匹配兜底”的业务场景(如品牌、标签、SEO 关键词)。 - 典型 mapping: @@ -78,12 +70,19 @@ ``` - 业务命名:**HKText**。使用 `字段.keyword` 子字段满足过滤、聚合等精确需求,主字段支持 ngram 模糊搜索。 -### 数值字段 +### LONG(数值字段-整数) + +```json +{ "type": "long" } +``` + +### FLOAT(数值字段-浮点数) -- **整数**:`{ "type": "long" }` -- **浮点数**:`{ "type": "float" }` +```json +{ "type": "float" } +``` -### 日期字段 +### DATE(日期字段) - 预处理:统一转换为 ISO8601(UTC)字符串或毫秒时间戳;空值保持 null。 - ES mapping: @@ -95,7 +94,7 @@ ``` - 查询:支持范围检索、排序与聚合。 -### 文本-多语言向量化 +### TEXT_EMBEDDING(文本-多语言向量化) - 调用“文本向量化”模块生成 1024 维向量,适用于标题、描述等语义检索场景。 ```json @@ -107,7 +106,7 @@ } ``` -### 图片-向量化 +### IMAGE_EMBEDDING(图片-向量化) - 调用“图片向量化”模块生成 1024 维向量,并保留图片 URL 以便回显。 ```json @@ -222,28 +221,6 @@ - 使用ES的nested类型,支持对嵌套字段进行独立查询和过滤 - `options` 对象包含 `option1`、`option2`、`option3` 三个字段,分别对应SKU表中的选项值 -## 字段类型说明 - -### ES字段类型映射 - -| ES字段类型 | Elasticsearch映射 | 用途 | -|-----------|------------------|------| -| KEYWORD | keyword | 精确匹配、过滤、聚合、排序 | -| TEXT | text | 全文检索(支持分词) | -| HKText | text + keyword子字段 | 精确优先的模糊/过滤混合场景 | -| FLOAT | float | 浮点数(价格、权重等) | -| LONG | long | 整数(库存、计数等) | -| DATE | date | 日期时间 | -| TEXT_EMBEDDING | dense_vector | 文本向量(1024维) | -| IMAGE_VECTOR | nested+dense_vector | 图片语义检索(含URL) | -| JSON | object/nested | 嵌套对象 | - -### 分析器说明 - -| 分析器名称 | 语言 | 说明 | -|-----------|------|------| -| chinese_ecommerce | 中文 | Ansj中文分词器(电商优化),用于中文文本的分词和搜索 | - ## 索引配置 ### 索引设置 -- libgit2 0.21.2