🐟 (@stevessr) 在 Decoupled DiLoCo:弹性分布式人工智能训练 新范式 中发帖
[!quote]+
今天,在一篇新论文中,我们很高兴与大家分享一种解决这一问题的新方法,即去耦合 DiLoCo(分布式低通信)。这种架构通过将大型训练运行划分到解耦的计算 "孤岛 "上,并在这些 "孤岛 "之间进行异步数据流,从而隔离了局部中断,使系统的其他部分能够继续高效地学习。
因此,在全球分布式数据中心中训练高级模型的方式更加灵活、更具弹性。最重要的是,Decoupled DiLoCo 不会出现通信延迟,而这种延迟会使以前的分布式方法(如数据并行)在全球范围内变得不切实际。
随着前沿模型的规模和复杂性不断增长,我们正在探索多种方法,以便在更多计算、地点和不同硬件上训练模型。
https://storage.googleapis.com/gdm-deepmind-com-prod-public/media/uEwZ_j5Su89wd5Om/Figure_1_animati...