啁啾 (@Chirp) 在感叹到不论是什么领域，模型大小都是一寸长一寸强中发帖最近在跑实验

啁啾 (@Chirp) 在感叹到不论是什么领域，模型大小都是一寸长一寸强中发帖

最近在跑实验。训练一个流匹配模型，输入雷达信息、输出对应配准的光学图像。 
设计了一个 8 层 384 宽度的 DiT，在 3080 上了训练两天。 
 [image] 
左图是生成结果，右图是 ground truth。只能说，一言难尽吧。 
然后是借到了 4090 48G，训练速度有了质的飞跃。然后以 “至少 3080 也能勉强跑动训练” 的目标搓了个 12 层 576 宽度的 DiT，训练二十小时。 
中途看了很多资料，发现即使是研究性质的 DiT 模型规模也比我现在的大得多。没必要吧，我这个只是生成黑白低分辨率的遥感图像，模型太大训练也很慢。 
 [image] 
但这个新的训练结果，让我觉得，要不一把梭。 
然后搓了个参数量是原来十倍的超大模型。训练相当缓慢，吃满了几乎所有显存。 
 [image] 
只训练了十小时，惊了。 
已经，离不开 4090 大人了。