@jason0522 在 ollama本地模型 api回复慢 中发帖
服务器:ollama run deepseek-r1:14b
使用api调用花费:80秒
服务器有两个gpu(单个16G),调用api时只跑了一个gpu
这里有什么方法可以加速回复
服务器:ollama run deepseek-r1:14b
使用api调用花费:80秒
服务器有两个gpu(单个16G),调用api时只跑了一个gpu
这里有什么方法可以加速回复