疯王伊里斯 (@100001) 在如何让AI的回复转为语音播放的形式? 中发帖第一种情况最容易理解的: 用户语音 → 文字 → AI → 文字 → 语音链路太长. 第二种情况是直接调用语音模型? 语音 → AI → 语音这种没用过, 而且能力是否对其文本模型? 是否可以拿来作 RAG? 第三种, 是第一种的 stram 形式: 用户语音 → 文字 → AI → 文字stream → 语音唯一的变华就是输出的时候实时语音转化, 但感觉不太现实? 另外, 钉钉AI中有个语音播报的功能是什么原理? 豆包的语音交互是用的语音模型吗? 恳请大佬解答一二.

疯王伊里斯 (@100001) 在如何让AI的回复转为语音播放的形式? 中发帖

第一种情况最容易理解的: 
用户语音 → 文字 → AI → 文字 → 语音 
链路太长. 
第二种情况是直接调用语音模型? 
语音 → AI → 语音 
这种没用过, 而且能力是否对其文本模型? 是否可以拿来作 RAG? 
第三种, 是第一种的 stram 形式: 
用户语音 → 文字 → AI → 文字stream → 语音 
唯一的变华就是输出的时候实时语音转化, 但感觉不太现实? 

另外, 钉钉AI中有个语音播报的功能是什么原理? 
豆包的语音交互是用的语音模型吗? 
恳请大佬解答一二.