猫先生 (@mrcat) 在 DeepSeek-V3 技术报告,训练仅需550w💰,部署成本貌似也不低 中发帖
🚀DeepSeek-V3 技术报告速览,训练仅需550w💰,部署成本
💰 训练成本 - 详细看图
[图片]
[图片]
⏱ 2.788M H800 小时,或 8192 卡 15天,猜测 Deepseek 应该有 32768 卡的集群[tieba_125]
📊 预训练:2664K GPU 小时(占 95%)
🔄 上下文扩展:119K GPU 小时
🎯 后训练(监督微调 + 强化学习):5K GPU 小时
⚙ 训练框架
🧠 FP8 混合精度:减少存储需求,提升训练效率
🔗 DualPipe 算法:计算与通信并行,减少管道气泡
🌐 高效通信:InfiniBand 和 NVLink,提升带宽利用率
🔧 参数与优化
🧮 671B 参数,每次激活 37B
⚖ 专家均衡策略:优化负载,提升性能
🎯 创新训练目标
🔮 多 Token 预测:增加训练信号密度,提高文本预判能力
📚...