freegrid 在 苹果芯片跑本地大模型的性能和意义 中发帖
最近我集中测了一轮苹果芯片本地跑大模型,机器覆盖了几种不同档位,模型、量化、上下文长度、推理框架也尽量拉开了一些。
我想聊的其实不只是“Mac 跑本地模型快不快”,而是两个更实际的问题:
苹果芯片跑本地大模型,真实性能到底在什么水平;
到了现在,本地部署这件事到底还有没有意义,意义又主要体现在哪。
网上关于这个话题的讨论很多,但经常会混在一起:有人看纯 tokens/s,有人看首 token 延迟,有人看长上下文,有人看功耗和静音体验,还有人更在意隐私、离线可用、长期成本,最后很容易各说各话。
所以这帖我想尽量把测试数据和使用场景拆开说:先贴我本地实际跑出来的一批结果,再聊聊我自己对“苹果芯片 + 本地大模型”这件事的判断,哪些是优势,哪些是想象,哪些场景值得投入,哪些场景其实不如直接用云端。
如果你们手里也有 M1/M2/M3/M4 不同机器,或者不同框架、不同量化的测试,也...