向量化模块和API说明文档.md 1.29 KB

向量化模块

快速上手:见 docs/QUICKSTART.md 第 3.3 节。

服务接口

  • 文本服务:POST http://localhost:6005/embed/text
  • 图片服务:POST http://localhost:6008/embed/image
  • 健康检查:GET /health
  • 就绪检查:GET /ready

当前架构

  • 文本 embedding 与图片 embedding 已拆分为两个独立进程 / 端口:
    • text: 6005
    • image: 6008
  • 两侧有独立并发控制:
    • TEXT_MAX_INFLIGHT
    • IMAGE_MAX_INFLIGHT
  • 两侧都接入 Redis 向量缓存,value 统一使用 BF16 bytes 存储。

缓存

  • 当前是双层缓存:
    • 调用侧 client 先查 Redis
    • 服务侧收到请求后再查 Redis
  • 当前主 key 规则:
    • 文本:embedding:embed:norm{0|1}:{text}
    • 图片:embedding:image:embed:norm{0|1}:{url_or_path}
  • full-cache-hit 时,服务会直接返回,不占用模型 lane。

配置

  • Provider/URL:config/config.yamlservices.embedding
  • 文本服务 URL:services.embedding.providers.http.text_base_url
  • 图片服务 URL:services.embedding.providers.http.image_base_url
  • 文本模型:embeddings/config.pyTEXT_MODEL_ID(默认 Qwen/Qwen3-Embedding-0.6B
  • 运行参数:TEXT_DEVICETEXT_BATCH_SIZETEXT_NORMALIZE_EMBEDDINGS

详见 embeddings/README.md