@HCPTangHYQwen3-TTS语音大模型正式发布 中发帖

阿里巴巴通义千问团队1月22日宣布,新一代开源语音合成模型系列 Qwen3-TTS 正式上线。该系列涵盖了从 0.6B 到 1.8B 参数规模的多个模型,目前已在 GitHub、Hugging Face 及 ModelScope 等全球开源社区同步开放权重、代码与技术论文。 
此次发布的 Qwen3-TTS 系列由 VoiceDesign、CustomVoice 和 Base三大核心组成,支持包括中、英、日、韩、德、法在内的 10 种主流语言。该模型不仅能够实现仅需 3 秒音频的高保真声音克隆,还创新性地支持通过自然语言指令直接“设计”人声,例如用户可以通过描述“一个带有四川口音、语气略显愤怒的成年男性”来生成特定的语音。
在技术架构上,Qwen3-TTS 采用了自主研发的 12Hz 高压缩率Tokenizer及双轨混合流式生成架构。这一设计彻底解决了传统模型在长文本处理中的信息瓶颈问题...