Sanjin (@qsh)有没有大佬,指导下会议系统的实现 中发帖

Agent Meeting 项目:会议转录部分难题 
要求:
一段会议音频,将各个说话人及其内容提取区分出来
所有模型本地运行,中英文
有什么实现方案、技术选型、建议和优化、文章和例子吗?
我当前的方案
VAD : pyannote
ASR : Qwen3-ASR-1.7B
diarization : pyannote/speaker-diarization-community-1
标点 : Qwen3-ASR
声纹识别 : SpeechBrain ECAPA-TDNN(192 维 embedding)+ pgvector 余弦距离匹配