十万大山的山大王 (@bruclan) 在影响 LLM 推理速度的各种设备的显存带宽（包括显存、统一内存）中发帖[image] 本地大模型推理的吐字速度主要依赖于显存/统一内存的带宽，有需要的小伙伴可以参考

十万大山的山大王 (@bruclan) 在影响 LLM 推理速度的各种设备的显存带宽（包括显存、统一内存）中发帖

[image] 
本地大模型推理的吐字速度主要依赖于显存/统一内存的带宽，有需要的小伙伴可以参考。