ai-saas / saas-search

27 Mar, 2026

2 commits

ed13851c 图片文本两个knn召回相关参数配置 Browse File »

tangwang
2026-03-27 11:58:00 +0800
dc403578 多模态搜索 Browse File »

tangwang
2026-03-27 08:11:35 +0800

24 Mar, 2026

1 commit

加了一个过滤/降权词典，query中有独立分词匹配到指定的触发词，将过滤带某些分词的商品（比如fitted/修身，过滤宽松、loose、relaxed、baggy,slouchy等商品）
2. reranker的query使用翻译后的

2026-03-24 22:54:38 +0800

23 Mar, 2026

3 commits

35da3813 中英混写query的优化逻辑，不适合新的combined_fields+best_fields+phrase查询方式，带来的复杂度较多，清理该部分逻辑 Browse File »

tangwang
2026-03-23 17:12:01 +0800

e756b18e 重构了文本召回构建器，现在每个 base_query / base_query_trans_* ... Browse File »

子句都变成了一个带有以下结构的命名布尔查询：

must：combined_fields

should：加权后的 best_fields 和 phrase 子句

主要改动位于
search/es_query_builder.py，但此次调整沿用了现有语言路由设计，并未引入一次性分支。额外的
should 子句权重现在通过
config/schema.py、config/loader.py、search/searcher.py 以及
config/config.yaml 进行配置驱动，从而保持结构的集中管理。

2026-03-23 14:45:06 +0800

a3d3fb11 加phrase提权 Browse File »

tangwang
2026-03-23 09:12:40 +0800

22 Mar, 2026

1 commit

ef5baa86 混杂语言处理 Browse File »

tangwang
2026-03-22 14:16:39 +0800

20 Mar, 2026

1 commit

6823fe3e feat(search): 混合语种查询分析与跨语言字段召回 ... Browse File »

## 背景
多语言索引下，用户查询常中英混写；需在解析阶段显式标记脚本类型，并在 BM25 子句中同时覆盖对应语言字段。

## 方案

### 1. Query 分析（query_parser.ParsedQuery）
- 新增 `contains_chinese`：query 文本含 CJK（沿用 _contains_cjk）。
- 新增 `contains_english`：分词结果中存在「纯英文、len>=3」token（fullmatch 字母及可选连字符）。
- 写入 to_dict、请求 context 中间结果，便于调试与 API 透出。

### 2. ES 文本召回（es_query_builder._build_advanced_text_query）
- 对每个 search_lang 子句：若含英文且子句语言非 en（且租户 index_languages 含 en），合并 en 列字段；若含中文且子句语言非 zh（且含 zh），合并 zh 列字段。
- 合并进来的字段 boost 乘以 `mixed_script_merged_field_boost_scale`（默认 0.8，可在 ESQueryBuilder 构造参数调整）。
- fallback_original_query_* 分支同样应用上述逻辑。

### 3. 实现整理
- 引入 `MatchFieldSpec = (field_path, boost)`：`_build_match_field_specs` 为唯一权重来源；`_merge_supplemental_lang_field_specs` / `_expand_match_field_specs_for_mixed_script` 在 tuple 上合并与缩放；最后 `_format_match_field_specs` 再格式化为 ES `path^boost`，避免先拼字符串再解析。

## 测试
- tests/test_query_parser_mixed_language.py：脚本标记与 token 规则。
- tests/test_es_query_builder.py：合并字段、0.8 缩放、index_languages 限制。

Made-with: Cursor

2026-03-20 14:45:57 +0800

18 Mar, 2026

3 commits

c90f80ed 相关性优化 Browse File »

tangwang
2026-03-18 16:44:27 +0800
a8261ece 检索效果优化 Browse File »

tangwang
2026-03-18 10:55:57 +0800

a47416ec 把融合逻辑改成乘法公式，并把 ES 命名子句分数回传链路补上了。 ... Browse File »

核心改动在 rerank_client.py (line 99)：fuse_scores_and_resort 现在按
rerank * knn * text 的平滑乘法公式计算，优先从 hit["matched_queries"]
里取 base_query 和 knn_query，并把 _text_score / _knn_score
一并写回调试字段。为了让 KNN 也有名字，我给 top-level knn 加了 name:
"knn_query"，见 es_query_builder.py (line 273)。搜索执行时会在 rerank
窗口内打开 include_named_queries_score，并在显式排序时加上
track_scores，见 searcher.py (line 400) 和 es_client.py (line 224)。

2026-03-18 10:24:05 +0800

11 Mar, 2026

1 commit

7fbca0d7 启动脚本优化 Browse File »

tangwang
2026-03-11 19:23:57 +0800