toxicsoda 在 模型并行求教 中发帖
背景
最近在做一个深度学习相关的实验,核心是视频自回归预测,希望用一个参数量尽可能大一些的模型来预测
模型分成一个输入头,线性预测和输出头
设备
最多可以用8卡A6000,48G
问题
目前采用的还是DDP,由于输入token数量比较多,只能用参数量小的模型。查了资料说是这种情况一般用FSDP或者是Deepspeed ZeRO,想请教这种情况应该选哪一种方法模型并行?佬们有没有好的教程或者资料可以学习呢