当前开发进度.md 3.33 KB
Edit Raw Blame History


对后端搜索技术 做通用化。

通用化的本质 是 对于各种业务数据、各种检索需求，都可以  用少量定制+配置化 来实现效果。
1. 原始数据层的约定。
店匠主表
shoplazza_product_sku
shoplazza_product_spu
所有租户共用这个主表
每个租户的辅表
各个租户，有自己的扩展表。 入索引的时候，商品主表 shoplazza_product_sku 的 id + shopid，拼接租户自己单独的扩展表（比如可以放一些自己的属性体系、各种语言的商品名、品牌名、标签、分类等）

但是，各个租户，可能有不一样的业务数据，比如不同租户有不同的属性的体系、不同语言的商品标题（一般至少有中英文两种满足跨境的搜索需求），有不同的权重（提权）字段、业务过滤和聚合字段。
能够统一的 只能是 sku表 按照一套配置规范、做一个配置文件，按照配置文件建设ES mapping结构以及做数据的入库。


应用结构配置 ： 定义了ES的输入数据有哪些字段、关联mysql的哪些字段.
请帮我补充具体实现的一些配置


2。 索引结构配置 : 定义了ES的字段，每个字段的索引mapping配置，支持各个域的查询，包括默认的域的查询。索引配置预定一号了一堆分析方式
 请帮我补充具体实现的一些配置
测试数据灌入
灌入数据、mysql到ES的自动同步，不在本项目的范围内，但是，该项目 为了提供测试数据，需要 构造一个实例 customer1.
我们为他构造一套应用配置和索引配置。
暂时是随机抽了我们自己的1w数据，建设辅助表，然后写一个程序，将数据分别灌入主表和辅表。

请帮我补充具体，当前测试数据灌入的具体的配置和方式，比如辅助表的内容 对应的应用结构配置 索引配置 等等。
queryParser

查询改写。 配置词典的key是query，value是改写后的查询表达式，比如。比如品牌词 改写为在brand|query OR name|query，类别词、标签词等都可以放进去。纠错、规范化、查询改写等 都可以通过这个词典来配置。
翻译。配置需要得到的几种目标语言。 在customer1测试案例中，我们配置 zh en两种语言。先对query做语言检测，如果query是中文那么要翻译一下en，如果是en那么要翻译zh，如果两者都不是那么zh en都需要翻译。
如果配置打开了text_embedding查询，并且query 包含了default域的查询，那么要把default域的查询词转向量，后面searcher会用这个向量参与查询。


也帮我补充一些具体实现情况
searcher
支持多种检索表达式：
支持多种匹配方式，如AND、OR、RANK、NOTAND以及()，优先级从高到低为()，ANDNOT，AND，OR，RANK。
default域的相关性，是代码里面单独计算，是特定的深度定制优化的，暂时不做配置化。
暂时具体实现为 bm25()+0.2*text_embedding_relevence（也就是knn检索表达式的打分）
bm25() 包括多语言的打分：内部需要通过配置翻译为多种语言（配置几种目标语言 默认中文、英文，并且设置对应的检索域），然后分别到对应的字段搜索，中文字段到配置的中文title搜索，英文到对应的英文title搜索。

也帮我补充一些具体实现情况