TODO.txt 2.83 KB
Edit Raw Blame History



AI - 生产 - MySQL
HOST：10.200.16.14 / localhost
端口：3316
用户名：root
密码：qY8tgodLoA&KT#yQ

AI - 生产 - Redis
HOST：10.200.16.14 / localhost
端口：6479
密码：dxEkegEZ@C5SXWKv


远程登录方式：
# redis
redis-cli -h 43.166.252.75 -p 6479

# mysql 3个用户，都可以远程登录
mysql -uroot -p'qY8tgodLoA&KT#yQ'
CREATE USER 'saas'@'%' IDENTIFIED BY '6dlpco6dVGuqzt^l';
CREATE USER 'sa'@'%' IDENTIFIED BY 'C#HU!GPps7ck8tsM';


ES：
HOST：10.200.16.14 / localhost
端口：9200
访问示例：
用户名密码：saas:4hOaLaf41y2VuI8y


你安装过nvidia-container-toolkit吗
现在有一些开源的推理引擎对向量化模型和重排模型支持的比较好，我们这块也正好要单独拎出来，因此想改造下。
调研了TEI, vLLM, xinference，目前觉得最合适的是xinference+vLLM后端，
最好以docker方式部署，让gpu对docker可见需要nvidia-container-toolkit，
我试了多种方法安装赖nvidia-container-toolkit都失败了
https://mirrors.aliyun.com/github/releases/NVIDIA/nvidia-container-toolkit/
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/index.html


bge-m3
qwen3-embedding
qwen3-reranker

大概耗时是0.026S，现在用这个xinference都得0.5S，看这个xinference的安装和embedding模型的部署是不是有问题


xinference是直接支持了embedding和reranker模型这些模型类型，相当于vllm的上层的封装，因此调用接口很简单，也支持bge和qwen3系列。 但是性能这么差 估计是有啥问题。
不好查的话，用vllm或者其他的推理引擎也行，

选一个推理引擎，相比于我自己直接调modelscope/sentence-transformers，主要是多进程和负载均衡、连续批处理，比较有用
不知道我理解的有没有问题
调研了TEI, vLLM, xinference，+vLLM后端
这个推理引擎怎么选合适，是选VLLM还是xinference


混用 大模型 使用：hunyuan-turbos-latest
混元 OpenAI 兼容接口相关调用示例：https://cloud.tencent.com/document/product/1729/111007


腾讯云 混元大模型 API_KEY：sk-mN2PiW2gp57B3ykxGs4QhvYxhPzXRZ2bcR5kPqadjboGYwiz

hunyuan翻译：使用模型  hunyuan-translation
https://cloud.tencent.com/document/product/1729/113395#4.-.E7.A4.BA.E4.BE.8B


谷歌翻译 基础版：https://docs.cloud.google.com/translate/docs/reference/rest/v2/translate


阿里云 百炼模型 现在使用的apikey是国内的。
各地域的 Base URL 和对应的 API Key 是绑定的。

现在使用了美国的服务器，使用了美国的地址，需要在 美国地域控制台页面（https://modelstudio.console.aliyun.com/us-east-1 ）中创建或获取API_KEY：

登录 百炼美国地域控制台:https://modelstudio.console.aliyun.com/us-east-1?spm=5176.2020520104.0.0.6b383a98WjpXff
在 API Key 管理 中创建或复制一个适用于美国地域的 Key