@milkey 在 Unsloth Dynamic (1.58Bit) 动态量化版本的 Deepseek V3/V2.5-1210 中发帖
你好啊,
在见识到了神乎奇技能够把 R1 压到 192G Mac Studio 能够运行的 Unsloth 的 1.58 Bit 动态量化 Deepseek R1 之后。我也在猜想这个量化方法是不是对 V3 和 V2.5 也会同样有效(看起来 V3 和 R1 的架构似乎也没有太大差异)。
于是我也尝试利用 Unsloth 的 LLAMA.cpp Fork 以及和 Unsloth 同样使用 bartowski 的 iMatrix,制作了 Deepseek V3 和 V2.5-1210 的 UD 动态量化。
我在 R9 7940HX + 96G 运行 V2.5-1210 IQ1_S 能有 7TPS 左右,EPYC 9654(64c vCPU)+ 265G 运行 V3 IQ1_S 能有 15TPS 左右,以上均为纯 CPU 推理。可以说由于 Deepseek 的 MoE 和较小的激活参数,...