Commit 062b97bc91bf0ba04450bef627172ccdce7aa63d

Authored by tangwang
1 parent cadc77b6

文档完善

Showing 1 changed file with 25 additions and 48 deletions   Show diff stats
docs/索引字段说明.md
... ... @@ -24,9 +24,9 @@
24 24  
25 25 ## 索引类型与处理说明
26 26  
27   -### 文本字段(多语言)
  27 +### 文本字段
28 28  
29   -- **电商通用分析-中文**
  29 +- **TEXT** (电商通用分析-多语言通用)
30 30 ```json
31 31 {
32 32 "type": "text",
... ... @@ -34,35 +34,27 @@
34 34 "search_analyzer": "hanlp_standard"
35 35 }
36 36 ```
37   -- **电商通用分析-英文**
  37 +- **TEXT_ZH** (电商通用分析-中文)
38 38 ```json
39   - { "type": "text", "analyzer": "english" }
40   - ```
41   -- **电商通用分析-日文**
42   - ```json
43   - { "type": "text", "analyzer": "japanese" }
44   - ```
45   -- **电商通用分析-阿拉伯文**
46   - ```json
47   - { "type": "text", "analyzer": "arabic" }
48   - ```
49   -- **电商通用分析-西班牙文**
50   - ```json
51   - { "type": "text", "analyzer": "spanish" }
  39 + {
  40 + "type": "text",
  41 + "analyzer": "hanlp_index",
  42 + "search_analyzer": "hanlp_standard"
  43 + }
52 44 ```
53   -- **电商通用分析-俄文**
  45 +- **TEXT_EN** (电商通用分析-中文)
54 46 ```json
55   - { "type": "text", "analyzer": "russian" }
  47 + { "type": "text", "analyzer": "english" }
56 48 ```
57 49  
58   -### 关键词字段
  50 +### KEYWORD(关键词字段)
59 51  
60 52 - ES 输入支持字符串或字符串数组,统一写入 keyword 字段,默认大小写敏感,必要时可通过 normalizer 统一大小写。
61 53 ```json
62 54 { "type": "keyword" }
63 55 ```
64 56  
65   -### Hybrid Keyword+Text(HKText)字段
  57 +### HKText(Hybrid Keyword+Text 字段)
66 58  
67 59 - 该类型用于“精确匹配优先 + 模糊匹配兜底”的业务场景(如品牌、标签、SEO 关键词)。
68 60 - 典型 mapping:
... ... @@ -78,12 +70,19 @@
78 70 ```
79 71 - 业务命名:**HKText**。使用 `字段.keyword` 子字段满足过滤、聚合等精确需求,主字段支持 ngram 模糊搜索。
80 72  
81   -### 数值字段
  73 +### LONG(数值字段-整数)
  74 +
  75 +```json
  76 +{ "type": "long" }
  77 +```
  78 +
  79 +### FLOAT(数值字段-浮点数)
82 80  
83   -- **整数**:`{ "type": "long" }`
84   -- **浮点数**:`{ "type": "float" }`
  81 +```json
  82 +{ "type": "float" }
  83 +```
85 84  
86   -### 日期字段
  85 +### DATE(日期字段)
87 86  
88 87 - 预处理:统一转换为 ISO8601(UTC)字符串或毫秒时间戳;空值保持 null。
89 88 - ES mapping:
... ... @@ -95,7 +94,7 @@
95 94 ```
96 95 - 查询:支持范围检索、排序与聚合。
97 96  
98   -### 文本-多语言向量化
  97 +### TEXT_EMBEDDING(文本-多语言向量化)
99 98  
100 99 - 调用“文本向量化”模块生成 1024 维向量,适用于标题、描述等语义检索场景。
101 100 ```json
... ... @@ -107,7 +106,7 @@
107 106 }
108 107 ```
109 108  
110   -### 图片-向量化
  109 +### IMAGE_EMBEDDING(图片-向量化)
111 110  
112 111 - 调用“图片向量化”模块生成 1024 维向量,并保留图片 URL 以便回显。
113 112 ```json
... ... @@ -222,28 +221,6 @@
222 221 - 使用ES的nested类型,支持对嵌套字段进行独立查询和过滤
223 222 - `options` 对象包含 `option1`、`option2`、`option3` 三个字段,分别对应SKU表中的选项值
224 223  
225   -## 字段类型说明
226   -
227   -### ES字段类型映射
228   -
229   -| ES字段类型 | Elasticsearch映射 | 用途 |
230   -|-----------|------------------|------|
231   -| KEYWORD | keyword | 精确匹配、过滤、聚合、排序 |
232   -| TEXT | text | 全文检索(支持分词) |
233   -| HKText | text + keyword子字段 | 精确优先的模糊/过滤混合场景 |
234   -| FLOAT | float | 浮点数(价格、权重等) |
235   -| LONG | long | 整数(库存、计数等) |
236   -| DATE | date | 日期时间 |
237   -| TEXT_EMBEDDING | dense_vector | 文本向量(1024维) |
238   -| IMAGE_VECTOR | nested+dense_vector | 图片语义检索(含URL) |
239   -| JSON | object/nested | 嵌套对象 |
240   -
241   -### 分析器说明
242   -
243   -| 分析器名称 | 语言 | 说明 |
244   -|-----------|------|------|
245   -| chinese_ecommerce | 中文 | Ansj中文分词器(电商优化),用于中文文本的分词和搜索 |
246   -
247 224 ## 索引配置
248 225  
249 226 ### 索引设置
... ...