@RU_Sirius 在 Deepseek是否打破部署定式?摆脱GPU? 中发帖
前几天看到这个视频,看到提到 tokens/s 其实取决于内存带宽,与运算单元、内存容量关系都不大(没有达到数量级的提升效果)。
满血671B的模型在进行工作时调用的参数量也只是37B,所以它可以在相同的硬件平台上以较高的速度运行。
虽然看上去如果要部署满血 8比特量化的 671B参数的R1,仍然需要很大的内存容量,但似乎 顶级模型 的个人私有部署已经不再是遥不可及。
你会给你的个人私有的R1多少预算?