🐟 (@stevessr) 在 Decoupled DiLoCo：弹性分布式人工智能训练新范式中发帖[!quote]+ 今天，在一篇新论文中，我们很高兴与大家分享一种解决这一问题的新方法，即去耦合 DiLoCo（分布式低通信）

🐟 (@stevessr) 在 Decoupled DiLoCo：弹性分布式人工智能训练新范式中发帖

[!quote]+ 
今天，在一篇新论文中，我们很高兴与大家分享一种解决这一问题的新方法，即去耦合 DiLoCo（分布式低通信）。这种架构通过将大型训练运行划分到解耦的计算 "孤岛 "上，并在这些 "孤岛 "之间进行异步数据流，从而隔离了局部中断，使系统的其他部分能够继续高效地学习。 
因此，在全球分布式数据中心中训练高级模型的方式更加灵活、更具弹性。最重要的是，Decoupled DiLoCo 不会出现通信延迟，而这种延迟会使以前的分布式方法（如数据并行）在全球范围内变得不切实际。 
随着前沿模型的规模和复杂性不断增长，我们正在探索多种方法，以便在更多计算、地点和不同硬件上训练模型。 
https://storage.googleapis.com/gdm-deepmind-com-prod-public/media/uEwZ_j5Su89wd5Om/Figure_1_animati...