kejun (@ke_jun)250604 三花AI日报:PlayDiffusion:开源音频局部编辑模型;Gemini 2.5 情感化多语言语音对话及生成;UniWorld:支持 20+ 任务的语义图片编辑模型;汉青HQ发布 AI 原生 MV《SURREAL》 中发帖

PlayDiffusion:开源音频局部编辑模型

PlayDiffusion 是一个开源的音频编辑模型,可以实现类似图片修复(inpaint)的局部编辑功能 - 只需修改音频中的特定片段,而无需重新生成整段音频。此外,它还是一个高性能的 TTS 系统,比传统 AR 模型的效率高出 50 倍。
佬们可以在HF上在线体验
谷歌 Gemini 2.5 情感化多语言语音对话及生成

谷歌的Gemini 2.5 带来了音频交互能力升级,包括 Gemini 2.5 Flash Exp Native Audio Thinking Dialog 和 Gemini 2.5 Flash Exp Native Audio Thinking Dialog 两款模型。
该系列模型支持包括自然对话、风格控制、工具集成、情境感知、多语言支持、情感对话、高级思维对话以及可控文本转语音等特性。
Not...