毛宁 (@maoning) 在 佬友们如何实现把声音转成字幕,并且保证字幕的时间和音频中人说话的时间对齐的比较精准。 中发帖
我在实现一个 把声音转成字幕的功能。已经通过Whisper实现了这个功能,但有以下问题:
1.字幕的时间很多时候比人说话的时间提前了很多
2.错别字很多
3.人说了三次话,但字幕一次性把这个三次字幕都显示出来了。
请问佬友们应该如何解决这种问题?