Commit 062b97bc91bf0ba04450bef627172ccdce7aa63d
1 parent
cadc77b6
文档完善
Showing
1 changed file
with
25 additions
and
48 deletions
Show diff stats
docs/索引字段说明.md
| @@ -24,9 +24,9 @@ | @@ -24,9 +24,9 @@ | ||
| 24 | 24 | ||
| 25 | ## 索引类型与处理说明 | 25 | ## 索引类型与处理说明 |
| 26 | 26 | ||
| 27 | -### 文本字段(多语言) | 27 | +### 文本字段 |
| 28 | 28 | ||
| 29 | -- **电商通用分析-中文** | 29 | +- **TEXT** (电商通用分析-多语言通用) |
| 30 | ```json | 30 | ```json |
| 31 | { | 31 | { |
| 32 | "type": "text", | 32 | "type": "text", |
| @@ -34,35 +34,27 @@ | @@ -34,35 +34,27 @@ | ||
| 34 | "search_analyzer": "hanlp_standard" | 34 | "search_analyzer": "hanlp_standard" |
| 35 | } | 35 | } |
| 36 | ``` | 36 | ``` |
| 37 | -- **电商通用分析-英文** | 37 | +- **TEXT_ZH** (电商通用分析-中文) |
| 38 | ```json | 38 | ```json |
| 39 | - { "type": "text", "analyzer": "english" } | ||
| 40 | - ``` | ||
| 41 | -- **电商通用分析-日文** | ||
| 42 | - ```json | ||
| 43 | - { "type": "text", "analyzer": "japanese" } | ||
| 44 | - ``` | ||
| 45 | -- **电商通用分析-阿拉伯文** | ||
| 46 | - ```json | ||
| 47 | - { "type": "text", "analyzer": "arabic" } | ||
| 48 | - ``` | ||
| 49 | -- **电商通用分析-西班牙文** | ||
| 50 | - ```json | ||
| 51 | - { "type": "text", "analyzer": "spanish" } | 39 | + { |
| 40 | + "type": "text", | ||
| 41 | + "analyzer": "hanlp_index", | ||
| 42 | + "search_analyzer": "hanlp_standard" | ||
| 43 | + } | ||
| 52 | ``` | 44 | ``` |
| 53 | -- **电商通用分析-俄文** | 45 | +- **TEXT_EN** (电商通用分析-中文) |
| 54 | ```json | 46 | ```json |
| 55 | - { "type": "text", "analyzer": "russian" } | 47 | + { "type": "text", "analyzer": "english" } |
| 56 | ``` | 48 | ``` |
| 57 | 49 | ||
| 58 | -### 关键词字段 | 50 | +### KEYWORD(关键词字段) |
| 59 | 51 | ||
| 60 | - ES 输入支持字符串或字符串数组,统一写入 keyword 字段,默认大小写敏感,必要时可通过 normalizer 统一大小写。 | 52 | - ES 输入支持字符串或字符串数组,统一写入 keyword 字段,默认大小写敏感,必要时可通过 normalizer 统一大小写。 |
| 61 | ```json | 53 | ```json |
| 62 | { "type": "keyword" } | 54 | { "type": "keyword" } |
| 63 | ``` | 55 | ``` |
| 64 | 56 | ||
| 65 | -### Hybrid Keyword+Text(HKText)字段 | 57 | +### HKText(Hybrid Keyword+Text 字段) |
| 66 | 58 | ||
| 67 | - 该类型用于“精确匹配优先 + 模糊匹配兜底”的业务场景(如品牌、标签、SEO 关键词)。 | 59 | - 该类型用于“精确匹配优先 + 模糊匹配兜底”的业务场景(如品牌、标签、SEO 关键词)。 |
| 68 | - 典型 mapping: | 60 | - 典型 mapping: |
| @@ -78,12 +70,19 @@ | @@ -78,12 +70,19 @@ | ||
| 78 | ``` | 70 | ``` |
| 79 | - 业务命名:**HKText**。使用 `字段.keyword` 子字段满足过滤、聚合等精确需求,主字段支持 ngram 模糊搜索。 | 71 | - 业务命名:**HKText**。使用 `字段.keyword` 子字段满足过滤、聚合等精确需求,主字段支持 ngram 模糊搜索。 |
| 80 | 72 | ||
| 81 | -### 数值字段 | 73 | +### LONG(数值字段-整数) |
| 74 | + | ||
| 75 | +```json | ||
| 76 | +{ "type": "long" } | ||
| 77 | +``` | ||
| 78 | + | ||
| 79 | +### FLOAT(数值字段-浮点数) | ||
| 82 | 80 | ||
| 83 | -- **整数**:`{ "type": "long" }` | ||
| 84 | -- **浮点数**:`{ "type": "float" }` | 81 | +```json |
| 82 | +{ "type": "float" } | ||
| 83 | +``` | ||
| 85 | 84 | ||
| 86 | -### 日期字段 | 85 | +### DATE(日期字段) |
| 87 | 86 | ||
| 88 | - 预处理:统一转换为 ISO8601(UTC)字符串或毫秒时间戳;空值保持 null。 | 87 | - 预处理:统一转换为 ISO8601(UTC)字符串或毫秒时间戳;空值保持 null。 |
| 89 | - ES mapping: | 88 | - ES mapping: |
| @@ -95,7 +94,7 @@ | @@ -95,7 +94,7 @@ | ||
| 95 | ``` | 94 | ``` |
| 96 | - 查询:支持范围检索、排序与聚合。 | 95 | - 查询:支持范围检索、排序与聚合。 |
| 97 | 96 | ||
| 98 | -### 文本-多语言向量化 | 97 | +### TEXT_EMBEDDING(文本-多语言向量化) |
| 99 | 98 | ||
| 100 | - 调用“文本向量化”模块生成 1024 维向量,适用于标题、描述等语义检索场景。 | 99 | - 调用“文本向量化”模块生成 1024 维向量,适用于标题、描述等语义检索场景。 |
| 101 | ```json | 100 | ```json |
| @@ -107,7 +106,7 @@ | @@ -107,7 +106,7 @@ | ||
| 107 | } | 106 | } |
| 108 | ``` | 107 | ``` |
| 109 | 108 | ||
| 110 | -### 图片-向量化 | 109 | +### IMAGE_EMBEDDING(图片-向量化) |
| 111 | 110 | ||
| 112 | - 调用“图片向量化”模块生成 1024 维向量,并保留图片 URL 以便回显。 | 111 | - 调用“图片向量化”模块生成 1024 维向量,并保留图片 URL 以便回显。 |
| 113 | ```json | 112 | ```json |
| @@ -222,28 +221,6 @@ | @@ -222,28 +221,6 @@ | ||
| 222 | - 使用ES的nested类型,支持对嵌套字段进行独立查询和过滤 | 221 | - 使用ES的nested类型,支持对嵌套字段进行独立查询和过滤 |
| 223 | - `options` 对象包含 `option1`、`option2`、`option3` 三个字段,分别对应SKU表中的选项值 | 222 | - `options` 对象包含 `option1`、`option2`、`option3` 三个字段,分别对应SKU表中的选项值 |
| 224 | 223 | ||
| 225 | -## 字段类型说明 | ||
| 226 | - | ||
| 227 | -### ES字段类型映射 | ||
| 228 | - | ||
| 229 | -| ES字段类型 | Elasticsearch映射 | 用途 | | ||
| 230 | -|-----------|------------------|------| | ||
| 231 | -| KEYWORD | keyword | 精确匹配、过滤、聚合、排序 | | ||
| 232 | -| TEXT | text | 全文检索(支持分词) | | ||
| 233 | -| HKText | text + keyword子字段 | 精确优先的模糊/过滤混合场景 | | ||
| 234 | -| FLOAT | float | 浮点数(价格、权重等) | | ||
| 235 | -| LONG | long | 整数(库存、计数等) | | ||
| 236 | -| DATE | date | 日期时间 | | ||
| 237 | -| TEXT_EMBEDDING | dense_vector | 文本向量(1024维) | | ||
| 238 | -| IMAGE_VECTOR | nested+dense_vector | 图片语义检索(含URL) | | ||
| 239 | -| JSON | object/nested | 嵌套对象 | | ||
| 240 | - | ||
| 241 | -### 分析器说明 | ||
| 242 | - | ||
| 243 | -| 分析器名称 | 语言 | 说明 | | ||
| 244 | -|-----------|------|------| | ||
| 245 | -| chinese_ecommerce | 中文 | Ansj中文分词器(电商优化),用于中文文本的分词和搜索 | | ||
| 246 | - | ||
| 247 | ## 索引配置 | 224 | ## 索引配置 |
| 248 | 225 | ||
| 249 | ### 索引设置 | 226 | ### 索引设置 |