@ggyy 在 佬有折腾本地部署大模型吗?除了隐私优势在哪里 中发帖
我 miniM4Pro 顶配拉满的,试了试本地模型,都是选的gguf,或 mlx 量化的
70B 的基本只有 10-12token/秒
32B 的基本也就 20token/秒
选的都是 4bit 量化的,个人体感 20 以上算流畅。 OSS 20B的模型基本到70~80甚至
但是有个问题,持续跑一会儿上加文如果多了就会降速 ,而且降的还不少。 最主要机器都发烫,CPU 都干到 80 度了,macmini 风扇呼呼的,声音倒是不大。
个人玩这些模型有什么主要意义吗?
指令遵循差,比起任何线上模型差距不小,体验不是很好,即便流畅运行 30B 以下的模型,运行的时候首次出字那也得等一分钟,尤其是加了提示词的情况下,几分钟不聊天的话再对话又会重新加载,最关键的是长时间机器发烫受不了
自己测试感受很差,免费的 gemini 不香么?
再个 ollama 云模型都是满血的,用起来体验更...