Pinging自建deepseek的话 如果模型放不下显存 貌似就大部分只用cpu跑吗? 中发帖

如题 4070s本地部署14b gpu可以拉满 跑得很快 32b的话 cpu拉满 gpu就摸鱼了