疑无 (@yiwu) 在用户将 DeepSeek-r1 671B 模型 MoE 层量化至 1.5bits 后，模型仍可有效运行中发帖原文 Reddit 用户 u/danielhanchen 将 DeepSeek-r1 的全量 617B 模型的 MoE 层量化至 1.5bits（{-1,0,1}），其他层保留为 4-6bits，模型总大小削减至 131GB 后，证实模型仍能保持一定的精度，并成功利用量化后模型创作了一个可游玩的 Flappy Bird

疑无 (@yiwu) 在用户将 DeepSeek-r1 671B 模型 MoE 层量化至 1.5bits 后，模型仍可有效运行中发帖

原文 
Reddit 用户 u/danielhanchen 将 DeepSeek-r1 的全量 617B 模型的 MoE 层量化至 1.5bits（{-1,0,1}），其他层保留为 4-6bits，模型总大小削减至 131GB 后，证实模型仍能保持一定的精度，并成功利用量化后模型创作了一个可游玩的 Flappy Bird。 
经过量化后的 1.5bits 模型运行在 4090 24GB 上可以输出 1-3 tokens/s，运行在 2*H100 80GB 上则可以输出 140 tokens/s。此外他还尝试了其他精度的量化： 




MoE Bits
Type
Disk Size
Accuracy
HF Link











1.58bit
IQ1_S
131GB
Fair
Link


1.73bit
IQ1_M
158GB
Good
Link


2.22bit
IQ2_X...