ai-saas / saas-search

17 Apr, 2026

1 commit

2059d959 feat(eval): 多评估集统一方案落地，扩展至771条query并启动LLM标注 ... Browse Dir »

【方案落地】
- 配置层：在 config/config.yaml 中注册 core_queries（原53条）和 clothing_top771（771条）
  核心改动：config/schema.py (line 410) 增加 EvaluationDataset 模型；
            config/loader.py (line 304) 提供 get_dataset/list_datasets，兼容旧配置；
            新增 scripts/evaluation/eval_framework/datasets.py 作为 dataset registry 辅助模块
- 存储与框架：所有 artifact 按 dataset_id 隔离，标注缓存跨数据集共享
  核心改动：store.py (line 1) 增加 dataset_id 字段到 build_runs/batch_runs；
            framework.py (line 1) build/batch_evaluate 接受 dataset_id 并固化 snapshot
- CLI 与调参：所有子命令增加 --dataset-id 参数
  核心改动：cli.py (line 1)、tune_fusion.py (line 1) 及启动脚本
- Web 与前端：支持动态切换评估集，History 按 dataset 过滤
  核心改动：web_app.py (line 1) 新增 /api/datasets，/api/history 支持 dataset_id；
            static/index.html 和 eval_web.js (line 1) 增加下拉选择器

【验证与测试】
- 新增 tests/test_search_evaluation_datasets.py，pytest 通过 2 passed
- 编译检查通过（pyflakes/mypy 核心模块）
- eval-web 已按新模型重启并通过健康检查（后续因资源占用不稳定，不影响标注）

【LLM 标注运行状态】
- 目标 dataset：clothing_top771（771条query）
- 手动拉起 reranker（因 search.rerank.enabled=false），确认 /health 正常
- 执行 rebuild --dataset-id clothing_top771，当前已进入第1个 query "白色oversized T-shirt" 的批量标注阶段（llm_batch=24/40）
- 日志：logs/eval.log（主进度），logs/verbose/eval_verbose.log（详细 LLM I/O）

2026-04-17 17:52:26 +0800

09 Apr, 2026

1 commit

32e9b30c scripts/ 根目录主要保留启动/编排入口，其他脚本归到了几个固定子目录： ... Browse Dir »

  - 数据转换放到 scripts/data_import/README.md
  - 诊断巡检放到 scripts/inspect/README.md
  - 运维辅助放到 scripts/ops/README.md
  - 前端辅助服务放到 scripts/frontend/frontend_server.py
  - 翻译模型下载放到 scripts/translation/download_translation_models.py
  - 临时图片补 embedding 脚本收敛成
    scripts/maintenance/embed_tenant_image_urls.py
  - Redis 监控脚本并入 redis/，现在是 scripts/redis/monitor_eviction.py

  同时我把真实调用链都改到了新位置：

  - scripts/start_frontend.sh
  - scripts/start_cnclip_service.sh
  - scripts/service_ctl.sh
  - scripts/setup_translator_venv.sh
  - scripts/README.md

  文档里涉及这些脚本的路径也同步修了，主要是 docs/QUICKSTART.md 和
translation/README.md。

2026-04-09 23:48:39 +0800