一个合格的复读机 (@fudujiii)[转载]「技术速览」 全新视频模型架构 FramePack 中发帖

ControlNet作者伊利亚又搞出好东西了 
Lvmin Zhang 提出了一种视频生成模型的架构 FramePack,可以压缩输入帧,使 transformer 上下文长度固定,不受视频长度影响。这个结构挺有意思的
可以预见这个架构会为视频模型带来非常大的显存、速度优化
作者还基于这个架构应用到了Wan和混元的视频模型,训练了一个13B的视频生成模型demo,6G显存能跑
[Clip_20250417_221648]
[Clip_20250417_221655]
[Clip_20250417_221701]
来源:秋葉aaaki的动态 - 哔哩哔哩