09 Mar, 2026

2 commits

  • config/config.yaml:
    - qwen3_vllm: enable_prefix_caching true(启用前缀缓存)
    - qwen3_vllm: enforce_eager false(允许 CUDA graph 加速)
    
    reranker/backends/qwen3_vllm.py:
    - TokensPrompt 导入改为 vllm.inputs.data(官方路径,兼容性更好)
    - 缺失 token 时使用 logprob=-10,与官方一致(原为 1e-10)
    - 使用批量 apply_chat_template 替代逐条调用,提升效率
    - logprobs 访问改为官方模式:token not in last 时 -10,否则 last[token].logprob
    
    其他: docs、embeddings、README 等文档更新
    
    Made-with: Cursor
    tangwang
     
  • CNCLIP_DEVICE=cuda TEI_USE_GPU=1 ./scripts/service_ctl.sh start
    搜索后端+indexer+测试前段+4个微服务 跑通
    tangwang
     

08 Mar, 2026

2 commits


07 Mar, 2026

2 commits


06 Mar, 2026

1 commit


05 Feb, 2026

1 commit


04 Feb, 2026

1 commit