变色龙 (@bianselong) 在 “DeepSeek 甚至绕过了英伟达 CUDA” 中发帖
[image]
这一次是 DeepSeek-V3 论文中的更多细节,被人挖掘出来。
来自 Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3 的硬件效率之所以能比 Meta 等高出 10 倍,可以总结为“他们从头开始重建了一切”。
在使用英伟达的 H800 GPU 训练 DeepSeek-V3 时,他们针对自己的需求把 132 个流式多处理器(SMs)中的 20 个修改成负责服务器间的通信,而不是计算任务。
变相绕过了硬件对通信速度的限制。 “DeepSeek 甚至绕过了英伟达 CUDA”,论文细节再引热议 - IT之家