alizoed 在在没法逃避人工校对的情况下，继续死磕自动化流程和AI质量还有意义吗中发帖我一直在弄一个输入视频然后输出精美字幕的项目最开始就很简单的，用whisper直出，然后人工切，差不多能打个30分，顶多省去自己听的步骤后来了解后用上whisperX，后来换到stable-ts，感觉有个70分，起码很多地方只需要切开，不需要自己划范围了然后后来有看到一个项目，试了一下那个项目，是：音频分离-人声分离-whisperX听写-NLP分句-标点分句-连词分句-LLM分句-AI分块粗翻-AI分块润色-对齐-输出，这时候就感觉有个85分的意思，你要是要求很低的话，直接给人看也没问题了之后在这个项目基础上魔改了很多，一点点往上加功能，一开始把whisperX换成stable-ts，然后开启VAD，后来加上人声频段识别，再后来又加声学对齐，然后又打算力大砖飞把什么标点分句，NLP分句，连词分句统统换成LLM分句，感觉有个95分的意思了这几天，尤其是开源后，又改了很多...

alizoed 在在没法逃避人工校对的情况下，继续死磕自动化流程和AI质量还有意义吗中发帖

我一直在弄一个输入视频然后输出精美字幕的项目 
最开始就很简单的，用whisper直出，然后人工切，差不多能打个30分，顶多省去自己听的步骤 
后来了解后用上whisperX，后来换到stable-ts，感觉有个70分，起码很多地方只需要切开，不需要自己划范围了 
然后后来有看到一个项目，试了一下那个项目，是：音频分离-人声分离-whisperX听写-NLP分句-标点分句-连词分句-LLM分句-AI分块粗翻-AI分块润色-对齐-输出，这时候就感觉有个85分的意思，你要是要求很低的话，直接给人看也没问题了 
之后在这个项目基础上魔改了很多，一点点往上加功能，一开始把whisperX换成stable-ts，然后开启VAD，后来加上人声频段识别，再后来又加声学对齐，然后又打算力大砖飞把什么标点分句，NLP分句，连词分句统统换成LLM分句，感觉有个95分的意思了 
这几天，尤其是开源后，又改了很多...