Youbiao He (@hybtalented) 在 本地 V100 跑模型,LMDeploy 和 llama.cpp 怎么选?求建议 中发帖
目前在 V100 上做本地模型推理,主要试了 LMDeploy 和 llama.cpp,各有优劣,有点纠结,想听听大家的经验。
LMDeploy:推理速度确实快,性能优势明显,但 Hugging Face 原生支持的模型格式偏少,很多模型需要额外转换或适配,遇到非主流模型会比较折腾。
llama.cpp:兼容性很强,GGUF 格式基本通吃,社区模型资源丰富。但 prefill 阶段速度明显偏慢,而且并发上来后显存压力很大,为了不爆显存,只能压缩每个会话的上下文长度,这又影响了长文本场景的体验。
目前卡在“速度”和“兼容性”之间取舍,想请教大家:
有没有办法在 llama.cpp 里优化 prefill 速度或显存占用?
或者 LMDeploy 有没有办法扩展更多模型格式的支持?
还是说这个场景下有其他更合适的推理框架推荐?
先谢谢各位大佬了!🙏