tiangui 在 FunASR在2个人对话快速切换时，无法正确进行说话人变化检测，佬们有什么解决方案吗？中发帖环境 ASR 引擎：FunASR 1.3.9，Python 嵌入式调用（非 Docker/Runtime WS）模型：SenseVoiceSmall（离线转写） + fsmn-vad（语音活动检测） + cam++（说话人 embedding）平台：CPU only，Ubuntu 24.04，15GB RAM 问题录音（2 人对话，10-30 秒）做说话人分离时，cam++ 内置聚类把所有段落都标为同一个说话人（spk=0）

tiangui 在 FunASR在2个人对话快速切换时，无法正确进行说话人变化检测，佬们有什么解决方案吗？中发帖

环境 

ASR 引擎：FunASR 1.3.9，Python 嵌入式调用（非 Docker/Runtime WS）
模型：SenseVoiceSmall（离线转写） + fsmn-vad（语音活动检测） + cam++（说话人 embedding）
平台：CPU only，Ubuntu 24.04，15GB RAM 
问题 
录音（2 人对话，10-30 秒）做说话人分离时，cam++ 内置聚类把所有段落都标为同一个说话人（spk=0）。 
根因


VAD 分段与说话人切换不对齐：VAD 只在静音处切分，两人快速对话无停顿时，一个 VAD 段内可能包含 2-3 次说话人交替
整段 embedding 是两人声音的混合：cosine similarity 0.715（同说话人典型值 0.7-0.9，不同说话人 0.0-0.3），落在灰色地带
FunASR 内置聚类不可靠：AutoMode...