26 Jan, 2026
2 commits
-
文档: 翻译模块说明.md
24 Jan, 2026
1 commit
-
2. 设置sku_filter_dimension参数的默认值为option1
09 Jan, 2026
3 commits
07 Jan, 2026
1 commit
06 Jan, 2026
5 commits
-
mappings/search_products.json:把原来的 title_zh/title_en/brief_zh/... 改成 按语言 key 的对象结构( /products/_doc/1 { "title": {"en":...} } ) 同时在这些字段下 预置了全部 analyzer 语言: arabic, armenian, basque, brazilian, bulgarian, catalan, chinese, cjk, czech, danish, dutch, english, finnish, french, galician, german, greek, hindi, hungarian, indonesian, italian, norwegian, persian, portuguese, romanian, russian, spanish, swedish, turkish, thai 实现为 type: object + properties,同时满足“按语言灌入”和“按语言 analyzer”。 索引灌入(全量/增量/transformer)已同步改完 indexer/document_transformer.py:输出从 title_zh/title_en/... 改为: title: {<primary_lang>: 原文, en?: 翻译, zh?: 翻译} brief/description/vendor 同理 category_path/category_name_text 也改为语言对象(避免查询侧继续依赖旧字段) indexer/incremental_service.py:embedding 取值从 title_en/title_zh 改为从 title 对象里优先取 en,否则取 zh,否则取任一可用语言。 查询侧与配置、API/文档已同步 search/es_query_builder.py:查询字段统一改成点路径:title.zh / title.en / vendor.zh / vendor.zh.keyword / category_name_text.zh 等。 config/config.yaml:field boosts / indexes 里的字段名同步为新点路径。 API & formatter: api/result_formatter.py 已支持新结构(并保留对旧 *_zh/_en 的兼容兜底)。 api/models.py、相关 docs/examples 里的 vendor_zh.keyword 等已更新为 vendor.zh.keyword。 文档/脚本:docs/、README.md、scripts/ 里所有旧字段名引用已批量替换为新结构。
04 Jan, 2026
1 commit
31 Dec, 2025
4 commits
29 Dec, 2025
2 commits
27 Dec, 2025
2 commits
-
修改内容 1. 在 tenant_facets_config.js 中添加映射配置 添加 TENANT_ID_MAPPING 配置对象,包含映射关系: 170 → 170 171 → 170 162 → 0 添加 getMappedTenantId() 函数,用于获取映射后的 tenant_id
26 Dec, 2025
3 commits
25 Dec, 2025
3 commits
-
- Added jina-ai/clip-as-service as a git submodule - Pinned to commit 03410570 (version 0.8.4) - Will be used for CLIP image/text embedding services
-
问题:nested 聚合统计的是嵌套文档(specifications 条目)数量,而不是产品(父文档)数量。 修复内容: 在 es_query_builder.py 中:为 specifications 分面的聚合添加了 reverse_nested 子聚合,用于统计产品数量: "aggs": { "product_count": { "reverse_nested": {} } } 在 result_formatter.py 中:更新读取逻辑,从 product_count.doc_count 读取产品数量,而不是直接使用 doc_count。 修复效果: 之前:分面显示 62(统计了 62 个嵌套文档/规格条目) 现在:分面显示实际的产品数量(例如 2),与搜索结果数量一致
22 Dec, 2025
5 commits
20 Dec, 2025
2 commits
19 Dec, 2025
6 commits
-
cache/service 任一环节返回坏 embedding(含 NaN/Inf/空/非 ndarray)都会 视为 None,并且坏 cache 会被自动删除。
-
1. api/indexer_app.py(索引服务,端口 6004) 在 startup_event() 中添加线程池大小配置 使用 anyio.to_thread.current_default_thread_limiter() 设置线程池大小为 48 添加日志记录,便于确认配置是否生效 2. api/app.py(搜索服务,端口 6002) 在 startup_event() 中添加线程池大小配置 同样设置为 48 个线程 添加日志记录
-
1. 添加 asyncio 导入 在文件顶部添加 import asyncio,用于在线程池中执行同步阻塞操作 2. 修改 /indexer/reindex 路由(全量索引) 使用 loop.run_in_executor() 将 service.bulk_index() 放到线程池执行 避免阻塞事件循环,允许其他请求并行处理 3. 修改 /indexer/index 路由(增量索引) 使用 loop.run_in_executor() 将 service.index_spus_to_es() 放到线程池执行 确保全量索引和增量索引可以并行执行 工作原理 线程池执行:同步阻塞操作(如数据库查询、ES 写入)在线程池中执行,不阻塞事件循环 并发支持: 全量索引占用一个线程 增量索引可同时使用其他线程 多个增量请求可并行处理 资源管理: 数据库连接池(pool_size=10, max_overflow=20)可支持并发请求 uvicorn 默认线程池(40 个线程)可处理多个并发请求
-
1. 删除 IndexingPipeline 类 文件:indexer/bulk_indexer.py 删除:IndexingPipeline 类(第201-259行) 删除:不再需要的 load_mapping 导入 2. 删除 main.py 中的旧代码 删除:cmd_ingest() 函数(整个函数) 删除:ingest 子命令定义 删除:main() 中对 ingest 命令的处理 删除:不再需要的 pandas 导入 更新:文档字符串,移除 ingest 命令说明 3. 删除旧的数据导入脚本 删除:data/customer1/ingest_customer1.py(依赖已废弃的 DataTransformer 和 IndexingPipeline)