xy3 在 阿里语音大模型fun audio chat上线 中发帖
Fun-Audio-Chat 是一款专为自然、低延迟语音交互而构建的大规模音频语言模型。它引入了 双分辨率语音表征(一个高效的 5Hz 共享主干 + 一个 25Hz 精细化头部),在保持高语音质量的同时大幅降低计算开销,并采用 Core-Cocktail 训练方法 以保留强大的文本大语言模型能力。该模型在口语问答、音频理解、语音函数调用、语音指令遵循和语音共情等基准测试中均取得了顶尖表现。
应该是刚刚上的:
[image]
示例页面: Fun-Audio-Chat Demo
魔搭社区:
Fun-Audio-Chat-8B · 模型库
arxiv论文:
[2506.09349] DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations
g...