@ggyy 在佬有折腾本地部署大模型吗？除了隐私优势在哪里中发帖我 miniM4Pro 顶配拉满的，试了试本地模型，都是选的gguf,或 mlx 量化的 70B 的基本只有 10-12token/秒 32B 的基本也就 20token/秒选的都是 4bit 量化的，个人体感 20 以上算流畅

@ggyy 在佬有折腾本地部署大模型吗？除了隐私优势在哪里中发帖

我 miniM4Pro 顶配拉满的，试了试本地模型，都是选的gguf,或 mlx 量化的 
70B 的基本只有 10-12token/秒 
32B 的基本也就 20token/秒 
选的都是 4bit 量化的，个人体感 20 以上算流畅。 OSS 20B的模型基本到70～80甚至 
但是有个问题，持续跑一会儿上加文如果多了就会降速 ，而且降的还不少。 最主要机器都发烫，CPU 都干到 80 度了，macmini 风扇呼呼的，声音倒是不大。 
个人玩这些模型有什么主要意义吗？ 
指令遵循差，比起任何线上模型差距不小，体验不是很好，即便流畅运行 30B 以下的模型，运行的时候首次出字那也得等一分钟，尤其是加了提示词的情况下，几分钟不聊天的话再对话又会重新加载，最关键的是长时间机器发烫受不了 
自己测试感受很差，免费的 gemini 不香么？ 
再个 ollama 云模型都是满血的，用起来体验更...