kejun (@ke_jun) 在 250425 三花 AI 日报:唇形同步模型 Hummingbird-0;支持多角色的视频一致性生成模型;阿里开源模块化数字人对话系统;OpenAI 推出 Deep Research 轻量版;开源 LiveCC:实时视频解说大模型 中发帖
Tavus 发布 SOTA 唇形同步模型 Hummingbird-0
Tavus 公司最新发布的 Hummingbird-0 是一款 SOTA 唇形同步模型,目前仅在 FAL 上提供 API 作为研究预览使用。
从官推的演示效果来看效果不错,期待开源~
字节跳动开源 Phantom:支持多角色的视频一致性生成模型
[图片]
Phantom 是字节跳动开源的一款视频角色一致性生成模型,能够根据参考图像生成保持角色一致性的视频内容,并支持多角色保持。
目前官方已适配 Wan 2.1 模型,有需要的佬们不要错过。
阿里开源模块化数字人对话系统
阿里开源了OpenAvatarChat完整数字人系统可在单台PC上流畅运行,平均响应时间仅2.2秒,支持文本、音频、视频等多模态交互。
最近有想做实时数字人的可以看看了,用了非常多的开源项目,不过效果还有提升空间,表情略显呆滞,口型同...