BHznJNs 在 可能是目前综合可用性最强的中文 ASR 解决方案 中发帖
书接上回 Whisper 模型中文调优 - #19,来自 BHznJNs
我在发现了 SenseVoice 这个模型后尝试本地运行,由于项目需要打包部署,所以不想依赖 pytorch 运行。搜索后发现两个方案:
一个是通过 sherpa-onnx 运行,可以参考这个代码片段:Run SenseVoice model locally with sherpa-onnx · GitHub
另一个就是本文的主角,SenseVoice.cpp。
SenseVoice.cpp 对于电脑性能需求明显比 faster-whisper 要低。我在本地运行 fp16 版本的模型只需要 600M 不到的内存。同时响应非常快,对于十秒内的音频,在实际使用中延迟几乎无感。
但是 SenseVoice.cpp 有个很明显的问题,它只能在程序运行前传入一个或多个音频文件进行转录,转录完成后程序就自动退出。这...