凌封小子 (@fengin)探研智能语音交互(二) 中发帖

索性写一个系列贴子吧,方便大家系统学习,贴子我写随意点,以后在我自己站点上整理比较完整的 
之前有发过求助贴子: 求佬们给一些ASR和TTS的选型建议 - #27,来自 fengin
收到各位佬友们的反馈和建议,我重复一下背景:
由于工作需要,需要实现一个人工智能语音交互的业务场景功能。
主要背景是办公区域安装一个10寸/4寸 安卓屏(10寸的配置稍高点,4寸的比较低),想利用语音交互相关功能,这里涉及到几个技术实现点需要选型:

屏端关键词唤醒(因为不能一直接收不需要的语音到服务端ASR),比如我们百度小爱、天猫精灵唤醒,本质上是本地热词识别;
唤醒后,对话语音断句检测(VAD端点检测),形成一个完整的句子发送到服务端;
服务端ASR(语音转文本,好多ASR选择,不知道哪个好);
业务处理/大模型推理,这个不需要大家推荐选型;
业务结果反馈,TTS(文本转语音,选型也比较多);

经...