毛宁 (@maoning) 在佬友们如何实现把声音转成字幕，并且保证字幕的时间和音频中人说话的时间对齐的比较精准

毛宁 (@maoning) 在佬友们如何实现把声音转成字幕，并且保证字幕的时间和音频中人说话的时间对齐的比较精准。中发帖

我在实现一个 把声音转成字幕的功能。已经通过Whisper实现了这个功能，但有以下问题： 
1.字幕的时间很多时候比人说话的时间提前了很多 
2.错别字很多 
3.人说了三次话，但字幕一次性把这个三次字幕都显示出来了。 
请问佬友们应该如何解决这种问题？