害你的猪 (@zhousp666) 在求本地部署的大模型API聚合建议，有4台8卡服务器7个API 中发帖现在有4台8卡，使用vllm分别部署了不同的模型其中一台8卡是部署了个9B的Qwen小模型响应速度快（每2张卡跑1个示例，也就是同一个模型跑4个，4个API地址）其他3台都是8卡同时运行1个模型，也就是3个API地址也就是有7个vllm创建的API地址我现在是用的liteLLM做聚合，这个可以实现那4个相同模型的API负载均衡很多员工都使用的Cherry Studio，有个Agent功能，但是这个功能必须要添加使用Anthropic模式接口都是内部使用，我现在想重新聚合这7个API地址，能满足正常的OpenAi模式，还能兼容Anthropic模式请求有没有好的组合建议没有使用newapi是因为没看到有负载均衡的地方（注意是面向我那跑4个相同示例的API）

害你的猪 (@zhousp666) 在求本地部署的大模型API聚合建议，有4台8卡服务器7个API 中发帖

现在有4台8卡，使用vllm分别部署了不同的模型 
其中一台8卡是部署了个9B的Qwen小模型响应速度快（每2张卡跑1个示例，也就是同一个模型跑4个，4个API地址） 
其他3台都是8卡同时运行1个模型，也就是3个API地址 
也就是有7个vllm创建的API地址 
我现在是用的liteLLM做聚合，这个可以实现那4个相同模型的API负载均衡 
很多员工都使用的Cherry Studio，有个Agent功能，但是这个功能必须要添加使用Anthropic模式接口 
都是内部使用，我现在想重新聚合这7个API地址，能满足正常的OpenAi模式，还能兼容Anthropic模式请求 
有没有好的组合建议 
没有使用newapi是因为没看到有负载均衡的地方（注意是面向我那跑4个相同示例的API）