啁啾 (@Chirp)感叹到不论是什么领域,模型大小都是一寸长一寸强 中发帖

最近在跑实验。训练一个流匹配模型,输入雷达信息、输出对应配准的光学图像。 
设计了一个 8 层 384 宽度的 DiT,在 3080 上了训练两天。
[image]
左图是生成结果,右图是 ground truth。只能说,一言难尽吧。
然后是借到了 4090 48G,训练速度有了质的飞跃。然后以 “至少 3080 也能勉强跑动训练” 的目标搓了个 12 层 576 宽度的 DiT,训练二十小时。
中途看了很多资料,发现即使是研究性质的 DiT 模型规模也比我现在的大得多。没必要吧,我这个只是生成黑白低分辨率的遥感图像,模型太大训练也很慢。
[image]
但这个新的训练结果,让我觉得,要不一把梭。
然后搓了个参数量是原来十倍的超大模型。训练相当缓慢,吃满了几乎所有显存。
[image]
只训练了十小时,惊了。
已经,离不开 4090 大人了。