善是一种态度 (@231YY)浙大+阿里开源数字人/虚拟人视频生成OmniAvatar 中发帖

项目地址


从官方示例看, 嘴型与音频的匹配不是很好, 说话差不多五个字有三个字能匹配上, 唱歌的效果再差一点 。
优点在于提示词可以控制视频生成的情绪表达、人物与物体的交互。
参考大佬的耗时: 24G运行6秒视频大约需要20多分钟。48G显存运行10秒视频需要25分钟左右。