Commit 062b97bc91bf0ba04450bef627172ccdce7aa63d

Authored by tangwang
1 parent cadc77b6

文档完善

Showing 1 changed file with 25 additions and 48 deletions   Show diff stats
docs/索引字段说明.md
@@ -24,9 +24,9 @@ @@ -24,9 +24,9 @@
24 24
25 ## 索引类型与处理说明 25 ## 索引类型与处理说明
26 26
27 -### 文本字段(多语言) 27 +### 文本字段
28 28
29 -- **电商通用分析-中文** 29 +- **TEXT** (电商通用分析-多语言通用)
30 ```json 30 ```json
31 { 31 {
32 "type": "text", 32 "type": "text",
@@ -34,35 +34,27 @@ @@ -34,35 +34,27 @@
34 "search_analyzer": "hanlp_standard" 34 "search_analyzer": "hanlp_standard"
35 } 35 }
36 ``` 36 ```
37 -- **电商通用分析-英文** 37 +- **TEXT_ZH** (电商通用分析-中文)
38 ```json 38 ```json
39 - { "type": "text", "analyzer": "english" }  
40 - ```  
41 -- **电商通用分析-日文**  
42 - ```json  
43 - { "type": "text", "analyzer": "japanese" }  
44 - ```  
45 -- **电商通用分析-阿拉伯文**  
46 - ```json  
47 - { "type": "text", "analyzer": "arabic" }  
48 - ```  
49 -- **电商通用分析-西班牙文**  
50 - ```json  
51 - { "type": "text", "analyzer": "spanish" } 39 + {
  40 + "type": "text",
  41 + "analyzer": "hanlp_index",
  42 + "search_analyzer": "hanlp_standard"
  43 + }
52 ``` 44 ```
53 -- **电商通用分析-俄文** 45 +- **TEXT_EN** (电商通用分析-中文)
54 ```json 46 ```json
55 - { "type": "text", "analyzer": "russian" } 47 + { "type": "text", "analyzer": "english" }
56 ``` 48 ```
57 49
58 -### 关键词字段 50 +### KEYWORD(关键词字段)
59 51
60 - ES 输入支持字符串或字符串数组,统一写入 keyword 字段,默认大小写敏感,必要时可通过 normalizer 统一大小写。 52 - ES 输入支持字符串或字符串数组,统一写入 keyword 字段,默认大小写敏感,必要时可通过 normalizer 统一大小写。
61 ```json 53 ```json
62 { "type": "keyword" } 54 { "type": "keyword" }
63 ``` 55 ```
64 56
65 -### Hybrid Keyword+Text(HKText)字段 57 +### HKText(Hybrid Keyword+Text 字段)
66 58
67 - 该类型用于“精确匹配优先 + 模糊匹配兜底”的业务场景(如品牌、标签、SEO 关键词)。 59 - 该类型用于“精确匹配优先 + 模糊匹配兜底”的业务场景(如品牌、标签、SEO 关键词)。
68 - 典型 mapping: 60 - 典型 mapping:
@@ -78,12 +70,19 @@ @@ -78,12 +70,19 @@
78 ``` 70 ```
79 - 业务命名:**HKText**。使用 `字段.keyword` 子字段满足过滤、聚合等精确需求,主字段支持 ngram 模糊搜索。 71 - 业务命名:**HKText**。使用 `字段.keyword` 子字段满足过滤、聚合等精确需求,主字段支持 ngram 模糊搜索。
80 72
81 -### 数值字段 73 +### LONG(数值字段-整数)
  74 +
  75 +```json
  76 +{ "type": "long" }
  77 +```
  78 +
  79 +### FLOAT(数值字段-浮点数)
82 80
83 -- **整数**:`{ "type": "long" }`  
84 -- **浮点数**:`{ "type": "float" }` 81 +```json
  82 +{ "type": "float" }
  83 +```
85 84
86 -### 日期字段 85 +### DATE(日期字段)
87 86
88 - 预处理:统一转换为 ISO8601(UTC)字符串或毫秒时间戳;空值保持 null。 87 - 预处理:统一转换为 ISO8601(UTC)字符串或毫秒时间戳;空值保持 null。
89 - ES mapping: 88 - ES mapping:
@@ -95,7 +94,7 @@ @@ -95,7 +94,7 @@
95 ``` 94 ```
96 - 查询:支持范围检索、排序与聚合。 95 - 查询:支持范围检索、排序与聚合。
97 96
98 -### 文本-多语言向量化 97 +### TEXT_EMBEDDING(文本-多语言向量化)
99 98
100 - 调用“文本向量化”模块生成 1024 维向量,适用于标题、描述等语义检索场景。 99 - 调用“文本向量化”模块生成 1024 维向量,适用于标题、描述等语义检索场景。
101 ```json 100 ```json
@@ -107,7 +106,7 @@ @@ -107,7 +106,7 @@
107 } 106 }
108 ``` 107 ```
109 108
110 -### 图片-向量化 109 +### IMAGE_EMBEDDING(图片-向量化)
111 110
112 - 调用“图片向量化”模块生成 1024 维向量,并保留图片 URL 以便回显。 111 - 调用“图片向量化”模块生成 1024 维向量,并保留图片 URL 以便回显。
113 ```json 112 ```json
@@ -222,28 +221,6 @@ @@ -222,28 +221,6 @@
222 - 使用ES的nested类型,支持对嵌套字段进行独立查询和过滤 221 - 使用ES的nested类型,支持对嵌套字段进行独立查询和过滤
223 - `options` 对象包含 `option1`、`option2`、`option3` 三个字段,分别对应SKU表中的选项值 222 - `options` 对象包含 `option1`、`option2`、`option3` 三个字段,分别对应SKU表中的选项值
224 223
225 -## 字段类型说明  
226 -  
227 -### ES字段类型映射  
228 -  
229 -| ES字段类型 | Elasticsearch映射 | 用途 |  
230 -|-----------|------------------|------|  
231 -| KEYWORD | keyword | 精确匹配、过滤、聚合、排序 |  
232 -| TEXT | text | 全文检索(支持分词) |  
233 -| HKText | text + keyword子字段 | 精确优先的模糊/过滤混合场景 |  
234 -| FLOAT | float | 浮点数(价格、权重等) |  
235 -| LONG | long | 整数(库存、计数等) |  
236 -| DATE | date | 日期时间 |  
237 -| TEXT_EMBEDDING | dense_vector | 文本向量(1024维) |  
238 -| IMAGE_VECTOR | nested+dense_vector | 图片语义检索(含URL) |  
239 -| JSON | object/nested | 嵌套对象 |  
240 -  
241 -### 分析器说明  
242 -  
243 -| 分析器名称 | 语言 | 说明 |  
244 -|-----------|------|------|  
245 -| chinese_ecommerce | 中文 | Ansj中文分词器(电商优化),用于中文文本的分词和搜索 |  
246 -  
247 ## 索引配置 224 ## 索引配置
248 225
249 ### 索引设置 226 ### 索引设置