ai-saas / saas-search

11 Mar, 2026

6 commits

af7ee060 service_ctl 简化为“显式服务清单”模式 ... Browse Dir »

去掉 START_* 控制变量逻辑，默认只启动核心服务 backend/indexer/frontend。
可选服务改为显式命令：./scripts/service_ctl.sh start embedding
translator reranker tei cnclip。
统一 translator 端口读取为 TRANSLATION_PORT（移除 TRANSLATOR_PORT
兼容）。
保留未知服务强校验。
关键文件：service_ctl.sh
“重名/歧义”修复
frontend 端口命名统一：FRONTEND_PORT 为主，PORT 仅后备。
start_frontend.sh 显式导出 PORT="${FRONTEND_PORT}"，避免配置了
FRONTEND_PORT 但服务仍跑 6003 的问题。
文件：start_frontend.sh、frontend_server.py、env_config.py
日志/PID 命名治理继续收口
统一规则继续落地为 logs/<service>.log、logs/<service>.pid。
cnclip 保持 logs/cnclip.log + logs/cnclip.pid。
文件：service_ctl.sh、start_cnclip_service.sh、stop_cnclip_service.sh
backend/indexer 启动风格统一补齐相关项
frontend/translator 也对齐到 set -euo pipefail，并用 exec 直启主进程。
文件：start_frontend.sh、start_translator.sh、start_backend.sh、start_indexer.sh
legacy 入口清理
删除：start_servers.py、stop_reranker.sh、stop_translator.sh。
reranker 停止逻辑并入 service_ctl（含 VLLM::EngineCore 清理）。
benchmark 脚本改为统一入口：service_ctl.sh stop reranker。
文件：benchmark_reranker_1000docs.sh

2026-03-11 22:39:39 +0800

bb6420d3 前端同源代理后端，避免写死6002和外部认证冲突 ... Browse Dir »

- 前端 JS 不再写死后端地址：默认 API_BASE_URL 为空串，所有搜索与 suggest 请求改为同源路径 (/search/*)，仅在显式注入 window.API_BASE_URL 时才覆盖，避免 .env 中旧的 http://43.166.252.75:6002 等配置污染浏览器请求。
- 在 scripts/frontend_server.py 上实现轻量级反向代理：拦截 /search/、/admin/、/indexer/ 的 GET/POST/OPTIONS 请求，服务端将请求转发到本机 6002 (BACKEND_PROXY_URL，默认 http://127.0.0.1:6002)，并把响应原样返回前端。
- 通过“浏览器 → web服务器:6003(认证) → GPU:6003(本项目前端) → GPU 本机:6002(后端)”这条链路，彻底绕开 web 服务器 6002 上单独的 Basic Auth，解决了外网访问时前端能打开但搜索请求被 web:6002 拦截的问题。
- frontend_server 默认不再注入 window.API_BASE_URL，只有在设置 FRONTEND_INJECT_API_BASE_URL=1 且 API_BASE_URL 有值时才向 HTML 注入脚本，确保默认行为始终是同源调用，由 6003 统一代理后端。
- 更新 frontend/index.html 中的静态 JS 版本号（tenant_facets_config.js 和 app.js），强制浏览器拉取最新脚本，避免旧版前端继续使用硬编码的后端地址。

Made-with: Cursor

2026-03-11 19:51:30 +0800

7fbca0d7 启动脚本优化 Browse Dir »

tangwang
2026-03-11 19:23:57 +0800
02c40701 frontend proxy search via same-origin + update ES9/Kibana docs ... Browse Dir »
```
Made-with: Cursor
```
tangwang
2026-03-11 18:22:36 +0800
9f5994b4 reranker Browse Dir »

tangwang
2026-03-11 14:26:34 +0800

efd435cf tei性能调优： ... Browse Dir »

./scripts/start_tei_service.sh
START_TEI=0 ./scripts/service_ctl.sh restart embedding

curl -sS -X POST "http://127.0.0.1:6005/embed/text" \
  -H "Content-Type: application/json" \
  -d '["芭比娃娃 儿童玩具", "纯棉T恤 短袖"]'

2026-03-11 13:12:44 +0800

10 Mar, 2026

4 commits

daf66a51 已完成接口级压测脚本，覆盖搜索、suggest ... Browse Dir »

和微服务（embedding/translate/rerank）。

**新增文件**
-
压测主脚本：[perf_api_benchmark.py](/data/saas-search/scripts/perf_api_benchmark.py:1)
-
自定义用例模板：[perf_cases.json.example](/data/saas-search/scripts/perf_cases.json.example:1)

**文档更新**
-
在接口对接文档增加“接口级压测脚本”章节：[搜索API对接指南.md](/data/saas-search/docs/搜索API对接指南.md:2089)

**支持的场景**
- `backend_search` -> `POST /search/`
- `backend_suggest` -> `GET /search/suggestions`
- `embed_text` -> `POST /embed/text`
- `translate` -> `POST /translate`
- `rerank` -> `POST /rerank`
- `all` -> 依次执行上述全部场景

**你可以直接执行的命令**
1. `./.venv/bin/python scripts/perf_api_benchmark.py --scenario
   backend_suggest --tenant-id 162 --duration 30 --concurrency 50`
2. `./.venv/bin/python scripts/perf_api_benchmark.py --scenario
   backend_search --tenant-id 162 --duration 30 --concurrency 20`
3. `./.venv/bin/python scripts/perf_api_benchmark.py --scenario all
   --tenant-id 162 --duration 60 --concurrency 30 --output
perf_reports/all.json`
4. `./.venv/bin/python scripts/perf_api_benchmark.py --scenario all
   --tenant-id 162 --cases-file scripts/perf_cases.json.example
--duration 60 --concurrency 40 --output perf_reports/custom_all.json`

**可选参数**
- `--backend-base` `--embedding-base` `--translator-base`
  `--reranker-base`：切到你的实际服务地址
- `--max-requests`：限制总请求数
- `--max-errors`：错误达到阈值提前停止
- `--pause`：`all` 模式下场景间暂停

**本地已验证**
- `backend_suggest` 小规模并发压测成功（200，成功率 100%）
- `backend_search` 小规模并发压测成功（200，成功率 100%）
- `translate` 小规模并发压测成功（200，成功率 100%）

2026-03-10 22:10:49 +0800

ff9efda0 suggest Browse Dir »

tangwang
2026-03-10 20:14:55 +0800
200fdddf embed norm Browse Dir »

tangwang
2026-03-10 17:56:28 +0800

c7e80cc2 新的 .env 管理机制如下： ... Browse Dir »

1. 新增 `scripts/init_env.sh`
- 若 `.env` 不存在，从 `.env.example` 复制生成
- 支持 `--force`：覆盖 `.env` 并备份为 `.env.bak`
- 首次搭建时统一执行：`./scripts/init_env.sh`

 2. 统一加载逻辑 `scripts/lib/load_env.sh`
- 移除 `activate.sh` 和 `service_ctl.sh` 中的重复解析逻辑
- 使用共享的 `load_env_file`，并改为 `eval "$(printf 'export %s=%q\n'
  "$key" "$value")"` 安全导出
- 支持含 ``、`$`、空格等特殊字符的值（需在 `.env` 中用引号包裹）

 3. 使用方式
- **activate.sh**：`source scripts/lib/load_env.sh` 后调用
  `load_env_file`
- **service_ctl.sh**：同上，去掉内联的 `load_env_file` 实现
- **create_tenant_index.sh**：改为使用共享 loader，不再用 `set -a;
  source .env`

 4. 文档更新
- **README.md**：在快速开始中加入 `./scripts/init_env.sh`
- **docs/QUICKSTART.md**：说明 `init_env.sh`
  用法，并强调含特殊字符的密码需加引号
- **.env.example**：补充注释说明引号规则

 5. setup.sh
- 用 `./scripts/init_env.sh` 替代原先的 `cp .env.example .env`

---

**推荐流程**：
```bash
./scripts/create_venv.sh
./scripts/init_env.sh     从 .env.example 生成本地 .env
source activate.sh
./run.sh
```

**密码写法**：若密码包含 ``、`$`、`&`、空格等，需加引号，例如：
```env
DB_PASSWORD="qY8tgodLoA&KTyQ"
ES_PASSWORD="4hOaLaf41y2VuI8y"
```

2026-03-10 10:40:14 +0800

09 Mar, 2026

4 commits

07cf5a93 START_EMBEDDING=1 START_TRANSLATOR=1 START_RERANKER=1 START_TEI=1 ... Browse Dir »
```
CNCLIP_DEVICE=cuda TEI_USE_GPU=1 ./scripts/service_ctl.sh start
搜索后端+indexer+测试前段+4个微服务 跑通
```
tangwang
2026-03-09 23:29:07 +0800
ed948666 tidy Browse Dir »

tangwang
2026-03-09 17:04:00 +0800
cc11ae04 cnclip Browse Dir »

tangwang
2026-03-09 13:26:40 +0800
e7a2c0b7 img encode Browse Dir »

tangwang
2026-03-09 10:25:44 +0800

08 Mar, 2026

1 commit

7299bae6 tests Browse Dir »

tangwang
2026-03-08 17:46:21 +0800

07 Mar, 2026

1 commit

d1d356f8 脚本优化 Browse Dir »

tangwang
2026-03-07 11:48:59 +0800

06 Mar, 2026

2 commits

484adbfe adapt ubuntu; conda -> venv Browse Dir »

tangwang
2026-03-06 18:50:20 +0800
a7920e17 项目名称和部署路径修改 Browse Dir »

tangwang
2026-03-06 17:32:37 +0800

05 Mar, 2026

1 commit

648cb4c2 ES docs Browse Dir »

tangwang
2026-03-05 23:12:27 +0800

02 Mar, 2026

1 commit

f251cf2d suggestion全量索引程序跑通 Browse Dir »

tangwang
2026-03-02 21:01:27 +0800

05 Feb, 2026

1 commit

7746376c 日志统一用中文 Browse Dir »

tangwang
2026-02-05 14:38:44 +0800

26 Jan, 2026

2 commits

6c5ee5bc add scripts : ... Browse Dir »
```
scripts/redis/
```
tangwang
2026-01-26 16:43:27 +0800
153a592e redis统计脚本 Browse Dir »

tangwang
2026-01-26 15:52:49 +0800

06 Jan, 2026

2 commits

80f87e57 多语言索引修改对应的索引创建、数据灌入脚本、文档同步修改 Browse Dir »

tangwang
2026-01-06 22:40:42 +0800

d7d48f52 改动（mapping + 灌入结构） ... Browse Dir »

mappings/search_products.json：把原来的 title_zh/title_en/brief_zh/... 改成 按语言 key 的对象结构（ /products/_doc/1 { "title": {"en":...} } ）
同时在这些字段下 预置了全部 analyzer 语言:
arabic, armenian, basque, brazilian, bulgarian, catalan, chinese, cjk, czech, danish, dutch, english, finnish, french, galician, german, greek, hindi, hungarian, indonesian, italian, norwegian, persian, portuguese, romanian, russian, spanish, swedish, turkish, thai

实现为 type: object + properties，同时满足“按语言灌入”和“按语言 analyzer”。
索引灌入（全量/增量/transformer）已同步改完
indexer/document_transformer.py：输出从 title_zh/title_en/... 改为：
title: {<primary_lang>: 原文, en?: 翻译, zh?: 翻译}
brief/description/vendor 同理
category_path/category_name_text 也改为语言对象（避免查询侧继续依赖旧字段）
indexer/incremental_service.py：embedding 取值从 title_en/title_zh 改为从 title 对象里优先取 en，否则取 zh，否则取任一可用语言。
查询侧与配置、API/文档已同步
search/es_query_builder.py：查询字段统一改成点路径：title.zh / title.en / vendor.zh / vendor.zh.keyword / category_name_text.zh 等。
config/config.yaml：field boosts / indexes 里的字段名同步为新点路径。
API & formatter：
api/result_formatter.py 已支持新结构（并保留对旧 *_zh/_en 的兼容兜底）。
api/models.py、相关 docs/examples 里的 vendor_zh.keyword 等已更新为 vendor.zh.keyword。
文档/脚本：docs/、README.md、scripts/ 里所有旧字段名引用已批量替换为新结构。

2026-01-06 19:42:20 +0800

31 Dec, 2025

2 commits

72e7256a 清理文件 Browse Dir »

tangwang
2025-12-31 17:27:12 +0800
768ad710 MySQL到ES字段映射说明-业务版.md Browse Dir »

tangwang
2025-12-31 16:58:16 +0800

29 Dec, 2025

2 commits

74cca190 cnclip Browse Dir »

tangwang
2025-12-29 23:22:14 +0800
40f1e391 cnclip Browse Dir »

tangwang
2025-12-29 23:04:02 +0800

25 Dec, 2025

1 commit

bad3b18b fix facet for 172 Browse Dir »

tangwang
2025-12-25 08:51:04 +0800

22 Dec, 2025

1 commit

7bfb9946 向量化模块 Browse Dir »

tangwang
2025-12-22 14:25:15 +0800

19 Dec, 2025

1 commit

5ac64fc7 多语言查询 Browse Dir »

tangwang
2025-12-19 08:32:19 +0800

18 Dec, 2025

3 commits

351a7eb5 1. 新的重建索引脚本 ... Browse Dir »

新增：scripts/recreate_index.py
功能：初始化 indexer 的 ES/DB 服务，然后调用 BulkIndexingService.bulk_index(…, recreate_index=True) 为指定 tenant_id 做「删除并重建索引 + 全量导入」。
用法示例：
cd /home/tw/SearchEngine# 使用默认 batch_size=500python scripts/recreate_index.py 162# 指定 batch_sizepython scripts/recreate_index.py 162 --batch-size 1000
脚本依赖和 Indexer API 一样的环境变量：DB_HOST/DB_PORT/DB_DATABASE/DB_USERNAME/DB_PASSWORD、ES_HOST/ES_USERNAME/ES_PASSWORD。
2. 清理与引用更新
原来的 scripts/recreate_index.sh 已经删除。
api/routes/indexer.py 里的说明改成引用 scripts/recreate_index.py。
docs/搜索API对接指南.md 中的提示也从 .sh 改为：
> python scripts/recreate_index.py <tenant_id> [--batch-size 500]

2025-12-18 20:28:23 +0800

bb9c626c 搜索服务（6002）不再初始化/挂载 /indexer/* 路由，避免索引阻塞线上搜索 ... Browse Dir »

新增 api/indexer_app.py，在独立进程（默认 6004）中初始化 ES + DB + 索引服务，并复用 api/routes/indexer.py 一套路由
新增 api/service_registry.py，通过注册表向索引路由注入 ES 客户端和索引服务，消除重复代码与循环依赖
main.py 增加 serve-indexer 子命令；scripts/start.sh / stop.sh / start_backend.sh / start_indexer.sh 支持独立管理索引进程
文档中所有索引相关示例由 6002/indexer/* 统一调整为 6004/indexer/*

2025-12-18 17:40:44 +0800

b735cced scripts/amazon_xlsx_to_shoplazza_xlsx.py ... Browse Dir »

1. 添加了两个开关参数
--keep-spu-if-parent-missing：保留父ASIN不在变体列表中的SPU（默认：丢弃整个SPU）
--fix-sku-if-title-mismatch：修正标题不一致的SKU而不是丢弃（默认：丢弃标题不一致的SKU）
2. 实现了相关逻辑
父ASIN缺失处理：
默认：当父ASIN不在变体列表中时，打印警告并丢弃整个SPU
使用 --keep-spu-if-parent-missing：保留SPU，使用第一个变体作为主商品
标题不一致处理：
默认：当变体标题与主商品不一致时，打印日志并丢弃该SKU
使用 --fix-sku-if-title-mismatch：修正变体标题为主商品标题

2025-12-18 08:50:29 +0800

17 Dec, 2025

5 commits

58beae7e fix bug Browse Dir »

tangwang
2025-12-17 23:48:52 +0800
8b1425bb amazon data Browse Dir »

tangwang
2025-12-17 23:44:03 +0800
a9608cb3 1. 第一列“商品ID”这一列进行填充，从1开始增 ... Browse Dir »
```
2.  如果变体的标题跟主商品不一致，请打印一条错误日志，并且忽略这一条数据
```
tangwang
2025-12-17 17:11:55 +0800
50170c5a 导入成功。有部分失败（1/4）原因有： ... Browse Dir »
```
1. 跟主商品标题不一致
2. 商品图片信息缺失
3. Options是无效的
```
tangwang
2025-12-17 16:33:18 +0800
80519ec6 emazon -> shoplazza Browse Dir »

tangwang
2025-12-17 16:05:54 +0800