疯王伊里斯 (@100001) 在 如何让AI的回复转为语音播放的形式? 中发帖
第一种情况最容易理解的:
用户语音 → 文字 → AI → 文字 → 语音
链路太长.
第二种情况是直接调用语音模型?
语音 → AI → 语音
这种没用过, 而且能力是否对其文本模型? 是否可以拿来作 RAG?
第三种, 是第一种的 stram 形式:
用户语音 → 文字 → AI → 文字stream → 语音
唯一的变华就是输出的时候实时语音转化, 但感觉不太现实?
另外, 钉钉AI中有个语音播报的功能是什么原理?
豆包的语音交互是用的语音模型吗?
恳请大佬解答一二.