浮霄默客 (@fuxiaomoke) 在 突破10分钟魔咒!哈基米精准时间戳还得靠这组合拳 (提示词+脚本) 中发帖
观前速览: 还在为哈基米转录字幕时间戳乱飘、搞不定SRT格式头疼吗?这篇帖子分享了我的血泪尝试史,最终发现用一个简单的提示词让它先吐出带时间的文字,再配合个Python小脚本,就能一定程度上解决问题,最后较为稳定地获得带有正确时间戳的字幕!
延续上次的话题。
说道做到,今天给各位佬分享一下如何用哈基米稳定转录出带正确时间戳的字幕文件,亲测有效
众所周知,aistudio上的gemini模型有音频理解这么一个功能,你传一个音频文件给他,他就能给你该音频的转录结果。
在准确率方面,gemini2.5pro的转录表现可以说是异常的出色,根据我个人的使用体验,CER应该在5%以下,绝对是世界前三的水平。即使是面对背景嘈杂 (浴室水声+回音)、人声模糊 (低吼、呻吟、口中有异物)、语句不连贯 (说半截话喘气两口气) 这样的复杂场景,只要你明确需求,它还是可以输出较为准确的转录文本。
...