kejun (@ke_jun) 在 250826 三花AI日报:微信测试对话式 AI 新闻播报;谷歌 NotebookLM 视频概览新增多语言支持;微软开源 VibeVoice-1.5B:超长多说话人 TTS 模型;Genspark 推出AI Designer;阿里 Wan 2.2-S2V 模型预告 中发帖
谷歌 NotebookLM 视频概览新增多语言支持
NotebookLM 的 Video Overviews 现已支持 80 种语言(包括简体中文),大幅提升了多语言内容处理能力。
同时,Audio Overviews 功能同步升级,新增生成长度选择功能,用户可在「短版/默认版」之间自由切换。
这个 Video Overviews 功能确实非常实用,强烈推荐佬们都试试!它生成的 PPT 采用演讲优先、内容辅助的设计理念,与市面上常见的将内容堆砌在页面中的 PPT 完全不一样。
微软开源 VibeVoice-1.5B:超长多说话人 TTS 模型
[图片]
微软开源的 VibeVoice-1.5B 文本转语音框架可生成长达 90 分钟的连续语音,并支持 4 个不同说话人切换,特别适合播客等长篇音频内容制作。
虽然支持中文生成,但语音带者’大佐味’,听起来还挺有趣,有点像外国人...