十万大山的山大王 (@bruclan)影响 LLM 推理速度的各种设备的显存带宽(包括显存、统一内存) 中发帖

[image] 
本地大模型推理的吐字速度主要依赖于显存/统一内存的带宽,有需要的小伙伴可以参考。