LINUX DO Channel

猫先生 (@mrcat) 在 DeepSeek-V3 技术报告，训练仅需550w💰，部署成本貌似也不低中发帖

🚀DeepSeek-V3 技术报告速览，训练仅需550w💰，部署成本
💰 训练成本 - 详细看图 
 [图片] 
 [图片] 
⏱ 2.788M H800 小时，或 8192 卡 15天，猜测 Deepseek 应该有 32768 卡的集群[tieba_125] 
📊 预训练：2664K GPU 小时（占 95%） 
🔄 上下文扩展：119K GPU 小时 
🎯 后训练（监督微调 + 强化学习）：5K GPU 小时 
⚙ 训练框架

🧠 FP8 混合精度：减少存储需求，提升训练效率
🔗 DualPipe 算法：计算与通信并行，减少管道气泡
🌐 高效通信：InfiniBand 和 NVLink，提升带宽利用率

🔧 参数与优化

🧮 671B 参数，每次激活 37B
⚖ 专家均衡策略：优化负载，提升性能

🎯 创新训练目标

🔮 多 Token 预测：增加训练信号密度，提高文本预判能力

📚...