疑无 (@yiwu)用户将 DeepSeek-r1 671B 模型 MoE 层量化至 1.5bits 后,模型仍可有效运行 中发帖

原文 
Reddit 用户 u/danielhanchen 将 DeepSeek-r1 的全量 617B 模型的 MoE 层量化至 1.5bits({-1,0,1}),其他层保留为 4-6bits,模型总大小削减至 131GB 后,证实模型仍能保持一定的精度,并成功利用量化后模型创作了一个可游玩的 Flappy Bird。
经过量化后的 1.5bits 模型运行在 4090 24GB 上可以输出 1-3 tokens/s,运行在 2*H100 80GB 上则可以输出 140 tokens/s。此外他还尝试了其他精度的量化:




MoE Bits
Type
Disk Size
Accuracy
HF Link











1.58bit
IQ1_S
131GB
Fair
Link


1.73bit
IQ1_M
158GB
Good
Link


2.22bit
IQ2_X...