ai-saas / saas-search

01 Apr, 2026

5 commits

35ae3b29 批量评估框架，召回参数修改和llm评估终止条件优化 Browse File »

tangwang
2026-04-01 11:47:33 +0800

dedd31c5 1. 搜索 recall 池「1 分」条数（DEFAULT_SEARCH_RECALL_TOP_K） ... Browse File »

scripts/evaluation/eval_framework/constants.py：500 → 200
Rebuild 里 rank <= recall_n 的 rerank_score: 1.0 仍按该 K 生效。
2. LLM 批次上下限
最少批次：DEFAULT_REBUILD_MIN_LLM_BATCHES 20 → 10
最多批次：仍为 40（未改）
3. 提前结束条件（_annotate_rebuild_batches）
在已跑满 min_batches 之后，对每个批次：

本批无 Exact（exact_n == 0），且满足其一即视为 bad batch：
irrelevant_ratio >= 0.94
或 (irrelevant + Low Relevant) / n >= 0.96（弱相关用 RELEVANCE_LOW）
连续 2 个 bad batch 则 early stop（原先是连续 3 次、irrelevant >
0.92）。

批次日志里增加了 low_ratio、irrelevant_plus_low_ratio；rebuild
元数据里增加了 rebuild_irrel_low_combined_stop_ratio。

4. CLI
--search-recall-top-k 说明改为默认 200
--rebuild-min-batches 说明改为默认 10
--rebuild-irrelevant-stop-ratio / --rebuild-irrelevant-stop-streak
说明与新逻辑一致
新增 --rebuild-irrel-low-combined-stop-ratio（默认 0.96）

2026-04-01 11:22:59 +0800

a345b01f eval framework Browse File »

tangwang
2026-04-01 10:00:45 +0800
bdb65283 标注框架批量标注 Browse File »

tangwang
2026-04-01 09:34:12 +0800
167f33b4 eval框架前端 Browse File »

tangwang
2026-04-01 07:40:04 +0800

31 Mar, 2026

2 commits

d172c259 eval框架 Browse File »

tangwang
2026-03-31 23:27:53 +0800
c81b0fc1 scripts/evaluation/eval_framework Browse File »

tangwang
2026-03-31 19:54:24 +0800