zjy1412 在 中文的语音识别哪家好? 中发帖
我需要批量地转几十场录播的语音为文字,每场录播平均在3小时。我希望选择准确率高和断句可靠的模型,因为语速很快。我目前了解的只有whisper系列和阿里的那些,初步是想自己跑,或者使用价格可以接受的付费api也行。
好像faster-whisper和阿里那个什么asr还不错?
我有用过卡卡字幕助手搬运过youtube的视频,如果不用里面可以选择的模型,最后的实现可能也会向他靠齐吧。