Youbiao He (@hybtalented)本地 V100 跑模型,LMDeploy 和 llama.cpp 怎么选?求建议 中发帖

目前在 V100 上做本地模型推理,主要试了 LMDeploy 和 llama.cpp,各有优劣,有点纠结,想听听大家的经验。 
LMDeploy:推理速度确实快,性能优势明显,但 Hugging Face 原生支持的模型格式偏少,很多模型需要额外转换或适配,遇到非主流模型会比较折腾。
llama.cpp:兼容性很强,GGUF 格式基本通吃,社区模型资源丰富。但 prefill 阶段速度明显偏慢,而且并发上来后显存压力很大,为了不爆显存,只能压缩每个会话的上下文长度,这又影响了长文本场景的体验。
目前卡在“速度”和“兼容性”之间取舍,想请教大家:


有没有办法在 llama.cpp 里优化 prefill 速度或显存占用?


或者 LMDeploy 有没有办法扩展更多模型格式的支持?


还是说这个场景下有其他更合适的推理框架推荐?


先谢谢各位大佬了!🙏