LINUX DO Channel

kejun (@ke_jun) 在 250604 三花AI日报：PlayDiffusion：开源音频局部编辑模型；Gemini 2.5 情感化多语言语音对话及生成；UniWorld：支持 20+ 任务的语义图片编辑模型；汉青HQ发布 AI 原生 MV《SURREAL》中发帖

PlayDiffusion：开源音频局部编辑模型

PlayDiffusion 是一个开源的音频编辑模型，可以实现类似图片修复(inpaint)的局部编辑功能 - 只需修改音频中的特定片段，而无需重新生成整段音频。此外，它还是一个高性能的 TTS 系统，比传统 AR 模型的效率高出 50 倍。 
佬们可以在HF上在线体验 
谷歌 Gemini 2.5 情感化多语言语音对话及生成

谷歌的Gemini 2.5 带来了音频交互能力升级，包括   Gemini 2.5 Flash Exp Native Audio Thinking Dialog  和  Gemini 2.5 Flash Exp Native Audio Thinking Dialog 两款模型。 
该系列模型支持包括自然对话、风格控制、工具集成、情境感知、多语言支持、情感对话、高级思维对话以及可控文本转语音等特性。 
Not...