xy3 在阿里语音大模型fun audio chat上线中发帖Fun-Audio-Chat 是一款专为自然、低延迟语音交互而构建的大规模音频语言模型

xy3 在阿里语音大模型fun audio chat上线中发帖

Fun-Audio-Chat 是一款专为自然、低延迟语音交互而构建的大规模音频语言模型。它引入了 双分辨率语音表征（一个高效的 5Hz 共享主干 + 一个 25Hz 精细化头部），在保持高语音质量的同时大幅降低计算开销，并采用 Core-Cocktail 训练方法 以保留强大的文本大语言模型能力。该模型在口语问答、音频理解、语音函数调用、语音指令遵循和语音共情等基准测试中均取得了顶尖表现。 
应该是刚刚上的： 
 [image] 

示例页面： Fun-Audio-Chat Demo 
魔搭社区： 
Fun-Audio-Chat-8B · 模型库 
arxiv论文： 
[2506.09349] DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations 
g...