对所有事物都后知后觉的brown (@brown_t)大模型分布式训练 中发帖

大哥们 谁知道torch.save的70B模型怎么在8张A100分布式训练😭