alizoed在没法逃避人工校对的情况下,继续死磕自动化流程和AI质量还有意义吗 中发帖

我一直在弄一个输入视频然后输出精美字幕的项目 
最开始就很简单的,用whisper直出,然后人工切,差不多能打个30分,顶多省去自己听的步骤
后来了解后用上whisperX,后来换到stable-ts,感觉有个70分,起码很多地方只需要切开,不需要自己划范围了
然后后来有看到一个项目,试了一下那个项目,是:音频分离-人声分离-whisperX听写-NLP分句-标点分句-连词分句-LLM分句-AI分块粗翻-AI分块润色-对齐-输出,这时候就感觉有个85分的意思,你要是要求很低的话,直接给人看也没问题了
之后在这个项目基础上魔改了很多,一点点往上加功能,一开始把whisperX换成stable-ts,然后开启VAD,后来加上人声频段识别,再后来又加声学对齐,然后又打算力大砖飞把什么标点分句,NLP分句,连词分句统统换成LLM分句,感觉有个95分的意思了
这几天,尤其是开源后,又改了很多...