害你的猪 (@zhousp666)求本地部署的大模型API聚合建议,有4台8卡服务器7个API 中发帖

现在有4台8卡,使用vllm分别部署了不同的模型 
其中一台8卡是部署了个9B的Qwen小模型响应速度快(每2张卡跑1个示例,也就是同一个模型跑4个,4个API地址)
其他3台都是8卡同时运行1个模型,也就是3个API地址
也就是有7个vllm创建的API地址
我现在是用的liteLLM做聚合,这个可以实现那4个相同模型的API负载均衡
很多员工都使用的Cherry Studio,有个Agent功能,但是这个功能必须要添加使用Anthropic模式接口
都是内部使用,我现在想重新聚合这7个API地址,能满足正常的OpenAi模式,还能兼容Anthropic模式请求
有没有好的组合建议
没有使用newapi是因为没看到有负载均衡的地方(注意是面向我那跑4个相同示例的API)