@milkey 在 Unsloth Dynamic (1.58Bit) 动态量化版本的 Deepseek V3/V2.5-1210 中发帖你好啊，在见识到了神乎奇技能够把 R1 压到 192G Mac Studio 能够运行的 Unsloth 的 1.58 Bit 动态量化 Deepseek R1 之后

@milkey 在 Unsloth Dynamic (1.58Bit) 动态量化版本的 Deepseek V3/V2.5-1210 中发帖

你好啊， 
在见识到了神乎奇技能够把 R1 压到 192G Mac Studio 能够运行的 Unsloth 的 1.58 Bit 动态量化 Deepseek R1 之后。我也在猜想这个量化方法是不是对 V3 和 V2.5 也会同样有效（看起来 V3 和 R1 的架构似乎也没有太大差异）。 
于是我也尝试利用 Unsloth 的 LLAMA.cpp Fork 以及和 Unsloth 同样使用 bartowski 的 iMatrix，制作了 Deepseek V3 和 V2.5-1210 的 UD 动态量化。 
我在 R9 7940HX + 96G 运行 V2.5-1210 IQ1_S 能有 7TPS 左右，EPYC 9654（64c vCPU）+ 265G 运行 V3 IQ1_S 能有 15TPS 左右，以上均为纯 CPU 推理。可以说由于 Deepseek 的 MoE 和较小的激活参数，...