楚豪 (@chuhao)Qwen3-ASR在粤英客服对话场景下的基准测试结果 中发帖

因为工作关系,我对Qwen3-ASR-1.7B和项目早期采用的Whisper-large-v3,针对粤英混杂客服对话场景做了基准测试。但近日任务繁重,实在无力撰写分享,所以我直接把结果报告贴上来吧。我对此报告中的所有数据的真实性负责,欢迎大家交流。 
Qwen3-ASR vs Whisper-v3-large 对比评估报告
1. 背景
旨在评估 Qwen3-ASR 和 Whisper-v3-large 两个主流语音识别模型在粤语客服电话场景下的表现,通过零样本测试和微调后测试两个维度进行对比,为实际业务场景中的模型选型提供数据支撑。
2. 数据集
2.1 数据来源

来源:香港XX署客服电话录音(已脱敏)
语言特点:粤语为主,夹杂英文(code-switching),符合香港人日常说话习惯
原始数据:96 条 WAV 录音(8kHz 单声道电话录音,每条约 2.5 分钟)+ 对应人工标注
...