猫先生 (@mrcat)DeepSeek-V3 技术报告,训练仅需550w💰,部署成本貌似也不低 中发帖

🚀DeepSeek-V3 技术报告速览,训练仅需550w​💰,部署成本
💰 训练成本 - 详细看图
[图片]
[图片]
2.788M H800 小时,或 8192 卡 15天,猜测 Deepseek 应该有 32768 卡的集群[tieba_125]
📊 预训练:2664K GPU 小时(占 95%)
🔄 上下文扩展:119K GPU 小时
🎯 后训练(监督微调 + 强化学习):5K GPU 小时
训练框架

🧠 FP8 混合精度:减少存储需求,提升训练效率
🔗 DualPipe 算法:计算与通信并行,减少管道气泡
🌐 高效通信:InfiniBand 和 NVLink,提升带宽利用率

🔧 参数与优化

🧮 671B 参数,每次激活 37B
专家均衡策略:优化负载,提升性能

🎯 创新训练目标

🔮 多 Token 预测:增加训练信号密度,提高文本预判能力

📚...