格拉维提 (@akuta)求用于交互式转写长时访谈记录的语音转文字STT/ASR方案 中发帖

STT/ASR在站内已经看到很多推荐了,不过很多是API或者实时服务。 
我的需求是:

转录时长在1-3小时不等的中文(夹杂英文单词)访谈录音。
不要求实时转录。
区分说话人(通常是2个)。
- 需要一个交互UI,能够实现:

关联切分的录音到单句。点击可以播放对应单句的语音,便于修改文字。(出于研究目的,不能完全交给机器转录)
能够添加术语、热词表。
简单的规整,如删除语病、语气词等。



去年曾经用过科大讯飞的方案,倒是符合要求,但当时发现讯飞的转录效果不如Gemini 2.5 Pro的多模态转录。虽然后者不方便单句修改,但也凑合用了。现在又要处理一些录音,不知道有没有熟悉这方面的佬推荐一下