凌封小子 (@fengin) 在 求佬们给一些ASR和TTS的选型建议 中发帖
由于工作需要,需要实现一个人工智能语音交互的业务场景功能。
主要背景是办公区域安装一个10寸/4寸 安卓屏(10寸的配置稍高点,4寸的比较低),想利用语音交互相关功能,这里涉及到几个技术实现点需要选型:
屏端关键词唤醒(因为不能一直接收不需要的语音到服务端ASR),比如我们百度小爱、天猫精灵唤醒,本质上是本地热词识别;
唤醒后,对话语音断句检测(VAD端点检测),形成一个完整的句子发送到服务端;
服务端ASR(语音转文本,好多ASR选择,不知道哪个好);
业务处理/大模型推理,这个不需要大家推荐选型;
业务结果反馈,TTS(文本转语音,选型也比较多);
以上我都了解了一些皮毛,选择也好多,但不确定怎么选型比较好,除了第4点外,其他的圈里的大佬给点建议,知道这里都是藏龙卧虎,希望给小辈一点建议。
最好是实际有落地过的开源选型,这样也减少我去试...