@fengchrisQwen3-ASR开源 语音识别新标杆 中发帖

今天,我们正式开源Qwen3-ASR系列语音识别模型: 
1️⃣Qwen3-ASR-1.7B:高精度全场景识别模型
2️⃣Qwen3-ASR-0.6B:高性能轻量级模型
3️⃣Qwen3-ForcedAligner-0.6B:强制对齐模型
🌟核心技术创新
基于自研AuT语音编码器与Qwen3-Omni多模态基座,Qwen3-ASR实现了端到端语音理解能力的显著突破,单模型即可支持52个语种与方言的自动识别与转写,其中1.7B版本覆盖30种语言及22种中文方言与口音。模型采用流式与非流式推理一体化设计,单次最长可处理20分钟音频,并引入基于非自回归LLM推理架构的强制对齐模型,支持11种语言任意位置的时间戳精准预测,单并发实时因子(RTF)低至0.0089,兼顾高精度与低延迟。
💪Qwen3-ASR-1.7B性能表现
Qwen3-ASR-1.7B在多项基准测试中达到开源领域最...