tianguiFunASR在2个人对话快速切换时,无法正确进行说话人变化检测,佬们有什么解决方案吗? 中发帖

环境 

ASR 引擎:FunASR 1.3.9,Python 嵌入式调用(非 Docker/Runtime WS)
模型:SenseVoiceSmall(离线转写) + fsmn-vad(语音活动检测) + cam++(说话人 embedding)
平台:CPU only,Ubuntu 24.04,15GB RAM
问题
录音(2 人对话,10-30 秒)做说话人分离时,cam++ 内置聚类把所有段落都标为同一个说话人(spk=0)。
根因


VAD 分段与说话人切换不对齐:VAD 只在静音处切分,两人快速对话无停顿时,一个 VAD 段内可能包含 2-3 次说话人交替
整段 embedding 是两人声音的混合:cosine similarity 0.715(同说话人典型值 0.7-0.9,不同说话人 0.0-0.3),落在灰色地带
FunASR 内置聚类不可靠:AutoMode...