Youbiao He (@hybtalented) 在本地 V100 跑模型，LMDeploy 和 llama.cpp 怎么选？求建议中发帖目前在 V100 上做本地模型推理，主要试了 LMDeploy 和 llama.cpp，各有优劣，有点纠结，想听听大家的经验

Youbiao He (@hybtalented) 在本地 V100 跑模型，LMDeploy 和 llama.cpp 怎么选？求建议中发帖

目前在 V100 上做本地模型推理，主要试了 LMDeploy 和 llama.cpp，各有优劣，有点纠结，想听听大家的经验。 
LMDeploy：推理速度确实快，性能优势明显，但 Hugging Face 原生支持的模型格式偏少，很多模型需要额外转换或适配，遇到非主流模型会比较折腾。 
llama.cpp：兼容性很强，GGUF 格式基本通吃，社区模型资源丰富。但 prefill 阶段速度明显偏慢，而且并发上来后显存压力很大，为了不爆显存，只能压缩每个会话的上下文长度，这又影响了长文本场景的体验。 
目前卡在“速度”和“兼容性”之间取舍，想请教大家： 


有没有办法在 llama.cpp 里优化 prefill 速度或显存占用？ 


或者 LMDeploy 有没有办法扩展更多模型格式的支持？ 


还是说这个场景下有其他更合适的推理框架推荐？ 


先谢谢各位大佬了！🙏