ai-saas / saas-search

20 Apr, 2026

1 commit

12a75c46 feat(eval): 为 LLM 标注添加统一续跑能力，支持断点续传与容错重试 ... Browse Dir »

- 问题背景：clothing_top771 数据集在被外部异常终止（reranker被kill）；缺乏统一的断点续跑机制，此前依赖临时脚本恢复。
- 解决方案：在 eval_framework/cli.py 的 build 命令中新增 --resume-missing、--continue-on-error、--max-retries-per-query、--retry-backoff-sec 参数，并修正默认参数逻辑（有 dataset_id 时不再强塞 legacy queries_file）。
- 脚本统一：更新 start_eval.sh 和 start_eval_web.sh，增加 batch-rebuild-resume 入口，统一使用 dataset 模式，REPO_EVAL_QUERIES 改为可选覆盖。
- 文档补充：在 scripts/evaluation/README.md 中添加中断续跑说明和新命令用法。
- 验证：eval-web 多数据集接口（/api/datasets、/api/history?dataset_id=...）正常返回 core_queries 与 clothing_top771 分域结果；当前进程已越过第 48 条，query_builds 计数增至 54，正在处理第 55/771。

把流程做成可持续的“统一续跑”能力，避免再靠临时脚本：
- 在 [scripts/evaluation/eval_framework/cli.py](/data/saas-search/scripts/evaluation/eval_framework/cli.py) 新增 `build --resume-missing --continue-on-error --max-retries-per-query --retry-backoff-sec`，并修正默认参数逻辑（有 `dataset_id` 时不再强塞 legacy `queries_file`）。
- 在 [scripts/evaluation/start_eval.sh](/data/saas-search/scripts/evaluation/start_eval.sh) 新增 `batch-rebuild-resume` 入口，统一用 dataset 模式，`REPO_EVAL_QUERIES` 仅作可选覆盖。
- 在 [scripts/start_eval_web.sh](/data/saas-search/scripts/start_eval_web.sh) 做同样的 dataset/queries 统一化。
- 在 [scripts/evaluation/README.md](/data/saas-search/scripts/evaluation/README.md) 补了中断续跑说明和新命令。
- 已验证 `eval-web` 多数据集接口正常（`/api/datasets`、`/api/history?dataset_id=...` 均返回 `core_queries` 与 `clothing_top771` 分域结果）。

当前在线进程：
- LLM 标注：`PID 2062901`（`build ... --dataset-id clothing_top771 --resume-missing ...`）
- reranker：`PID 2065235`（6007，`/health` 返回 `ok`）

盯进度：
```bash
tail -f logs/eval.log
ls -1 artifacts/search_evaluation/datasets/clothing_top771/query_builds | wc -l
curl -sS http://127.0.0.1:6007/health
```

影响范围：scripts/evaluation/eval_framework/cli.py, scripts/evaluation/start_eval.sh, scripts/start_eval_web.sh, scripts/evaluation/README.md

2026-04-20 14:16:15 +0800

17 Apr, 2026

2 commits

822ab0fd 1. product_enrich: prompt optimization for qanchor generation ... Browse Dir »
```
2. eval framework: record request_id and response body when LLM calls fail — clients.py: added request ID extraction and error description functions
```
tangwang
2026-04-17 20:36:10 +0800

2059d959 feat(eval): 多评估集统一方案落地，扩展至771条query并启动LLM标注 ... Browse Dir »

【方案落地】
- 配置层：在 config/config.yaml 中注册 core_queries（原53条）和 clothing_top771（771条）
  核心改动：config/schema.py (line 410) 增加 EvaluationDataset 模型；
            config/loader.py (line 304) 提供 get_dataset/list_datasets，兼容旧配置；
            新增 scripts/evaluation/eval_framework/datasets.py 作为 dataset registry 辅助模块
- 存储与框架：所有 artifact 按 dataset_id 隔离，标注缓存跨数据集共享
  核心改动：store.py (line 1) 增加 dataset_id 字段到 build_runs/batch_runs；
            framework.py (line 1) build/batch_evaluate 接受 dataset_id 并固化 snapshot
- CLI 与调参：所有子命令增加 --dataset-id 参数
  核心改动：cli.py (line 1)、tune_fusion.py (line 1) 及启动脚本
- Web 与前端：支持动态切换评估集，History 按 dataset 过滤
  核心改动：web_app.py (line 1) 新增 /api/datasets，/api/history 支持 dataset_id；
            static/index.html 和 eval_web.js (line 1) 增加下拉选择器

【验证与测试】
- 新增 tests/test_search_evaluation_datasets.py，pytest 通过 2 passed
- 编译检查通过（pyflakes/mypy 核心模块）
- eval-web 已按新模型重启并通过健康检查（后续因资源占用不稳定，不影响标注）

【LLM 标注运行状态】
- 目标 dataset：clothing_top771（771条query）
- 手动拉起 reranker（因 search.rerank.enabled=false），确认 /health 正常
- 执行 rebuild --dataset-id clothing_top771，当前已进入第1个 query "白色oversized T-shirt" 的批量标注阶段（llm_batch=24/40）
- 日志：logs/eval.log（主进度），logs/verbose/eval_verbose.log（详细 LLM I/O）

2026-04-17 17:52:26 +0800

16 Apr, 2026

2 commits

6826fd31 eval框架标注集扩展-数据准备 Browse Dir »

tangwang
2026-04-16 23:15:58 +0800
dba57642 bayes调参计划 Browse Dir »

tangwang
2026-04-16 17:28:13 +0800

08 Apr, 2026

2 commits

8e081187 ERR打分，停止概率的计算公式修改为通用方法： p(t) = (2^t - 1) / 2^{max_grade} Browse Dir »

tangwang
2026-04-08 15:50:55 +0800
d73ca84a refine eval case snapshots and rename relevance levels Browse Dir »

tangwang
2026-04-08 15:39:47 +0800

07 Apr, 2026

1 commit

6e3e6770 suggest文档维护 Browse Dir »

tangwang
2026-04-07 22:14:59 +0800

04 Apr, 2026

2 commits

441f049d 评测体系优化，以及 ... Browse Dir »
```
Exact Match
High Relevant
Low Relevant
Irrelevant

to

Fully Relevant
Mostly Relevant
Weakly Relevant
Irrelevant
```
tangwang
2026-04-04 22:14:42 +0800
f5da42e6 标注提示词优化 Browse Dir »

tangwang
2026-04-04 19:02:43 +0800

03 Apr, 2026

1 commit

ccbdf870 enriched_attributes.value字段参与搜索 Browse Dir »

tangwang
2026-04-03 21:11:50 +0800

02 Apr, 2026

3 commits

465f90e1 添加LTR数据收集 ... Browse Dir »

目前在54训练数据里面，拆分44条train + 10
test，训练集显著提升但是test上不及基线
作为基础设施保留，以后可以考虑扩大数据集进行使用

2026-04-02 16:20:45 +0800

a6d51aa7 eval Browse Dir »

tangwang
2026-04-02 13:56:45 +0800
4d000c94 融合公式调参 Browse Dir »

tangwang
2026-04-02 12:14:41 +0800

01 Apr, 2026

16 commits

30b490e1 添加ERR评估指标 Browse Dir »

tangwang
2026-04-01 22:18:40 +0800
7ddd4cb3 评估体系从三等级->四等级 Exact Match / High Relevant / Low Relevant / ... Browse Dir »
```
Irrelevant
```
tangwang
2026-04-01 21:35:57 +0800
9df421ed 基于eval框架开始调参 Browse Dir »

tangwang
2026-04-01 20:05:22 +0800
42024409 评估框架-批量打标 Browse Dir »

tangwang
2026-04-01 16:57:58 +0800
286e9b4f evalution Browse Dir »

tangwang
2026-04-01 16:10:30 +0800
310bb3bc eval tools Browse Dir »

tangwang
2026-04-01 15:59:19 +0800
331861d5 eval框架配置化 Browse Dir »

tangwang
2026-04-01 15:29:36 +0800
1c2ba48e eval tagger Browse Dir »

tangwang
2026-04-01 14:43:00 +0800

cdd8ee3a eval框架日志独立 ... Browse Dir »

现在的行为（按你的路径）
用途	路径（相对仓库根 PROJECT_ROOT）
评估主日志（CLI + framework 的 INFO）	logs/eval.log
LLM 全量 prompt / 原始响应	logs/verbose/eval_verbose.log
实现要点：

constants.py：EVAL_LOG_DIR、EVAL_VERBOSE_LOG_DIR、EVAL_LOG_FILE、EVAL_VERBOSE_LOG_FILE。
logging_setup.py：setup_eval_logging() 给名为 search_eval 的 logger 挂
文件 + stderr，只初始化一次；build_annotation_set.py / serve_eval_web.py
走的 eval_framework.cli.main() 开头会先调用。
cli.py：原来的 print 改为 search_eval.cli 的 logging.info；启动时写一条
CLI start command=... log_file=... 到 logs/eval.log。
framework.py：rebuild 相关 print 改为 search_eval.framework 的
logging.info。
clients.py：verbose 改为写入
logs/verbose/eval_verbose.log；首次需要时调用 setup_eval_logging()，并用
search_eval.info 提示 verbose 文件路径（不再用 print）。

2026-04-01 14:19:27 +0800

35ae3b29 批量评估框架，召回参数修改和llm评估终止条件优化 Browse Dir »

tangwang
2026-04-01 11:47:33 +0800

dedd31c5 1. 搜索 recall 池「1 分」条数（DEFAULT_SEARCH_RECALL_TOP_K） ... Browse Dir »

scripts/evaluation/eval_framework/constants.py：500 → 200
Rebuild 里 rank <= recall_n 的 rerank_score: 1.0 仍按该 K 生效。
2. LLM 批次上下限
最少批次：DEFAULT_REBUILD_MIN_LLM_BATCHES 20 → 10
最多批次：仍为 40（未改）
3. 提前结束条件（_annotate_rebuild_batches）
在已跑满 min_batches 之后，对每个批次：

本批无 Exact（exact_n == 0），且满足其一即视为 bad batch：
irrelevant_ratio >= 0.94
或 (irrelevant + Low Relevant) / n >= 0.96（弱相关用 RELEVANCE_LOW）
连续 2 个 bad batch 则 early stop（原先是连续 3 次、irrelevant >
0.92）。

批次日志里增加了 low_ratio、irrelevant_plus_low_ratio；rebuild
元数据里增加了 rebuild_irrel_low_combined_stop_ratio。

4. CLI
--search-recall-top-k 说明改为默认 200
--rebuild-min-batches 说明改为默认 10
--rebuild-irrelevant-stop-ratio / --rebuild-irrelevant-stop-streak
说明与新逻辑一致
新增 --rebuild-irrel-low-combined-stop-ratio（默认 0.96）

2026-04-01 11:22:59 +0800

a3734f13 eval任务美国地区不支持batch调用，改为在线调用 Browse Dir »

tangwang
2026-04-01 10:40:32 +0800
a345b01f eval framework Browse Dir »

tangwang
2026-04-01 10:00:45 +0800
46d94a05 评估标准修改 Browse Dir »

tangwang
2026-04-01 09:40:39 +0800
bdb65283 标注框架批量标注 Browse Dir »

tangwang
2026-04-01 09:34:12 +0800
167f33b4 eval框架前端 Browse Dir »

tangwang
2026-04-01 07:40:04 +0800

31 Mar, 2026

10 commits

d172c259 eval框架 Browse Dir »

tangwang
2026-03-31 23:27:53 +0800
3ac1f8d1 评估标准优化 Browse Dir »

tangwang
2026-03-31 22:48:50 +0800
3984ec64 evalution 标注标准优化 ... Browse Dir »
```
Made-with: Cursor
```
tangwang
2026-03-31 20:54:22 +0800
c81b0fc1 scripts/evaluation/eval_framework Browse Dir »

tangwang
2026-03-31 19:54:24 +0800
7b8d9e1a 评估框架的启动脚本 Browse Dir »

tangwang
2026-03-31 19:36:47 +0800
f8e7cb97 evalution framework Browse Dir »

tangwang
2026-03-31 18:53:54 +0800
881d338b 评估框架 Browse Dir »

tangwang
2026-03-31 18:25:19 +0800
432d1c88 评估框架 Browse Dir »

tangwang
2026-03-31 17:12:01 +0800
267920e5 eval docs Browse Dir »

tangwang
2026-03-31 13:54:01 +0800
3b35f139 search evalution Browse Dir »

tangwang
2026-03-31 13:25:18 +0800