aijin 在对话式agent，有大佬了解吗语音识别大模型语音合成 stt->ast->tts 中发帖目前的想法的是 stt和tts用本地自己的服务器上的 llm 目前打算调用api 想要一套框架来实现三段式的语音agent 目前我了解的开源框架有 pipecat ten-framework 有大佬了解这方面的吗能推荐一下一些开源的框架以及实际落地的一些相关问题

aijin 在对话式agent，有大佬了解吗语音识别大模型语音合成 stt->ast->tts 中发帖

目前的想法的是 
stt和tts用本地自己的服务器上的 
llm 目前打算调用api 
想要一套框架 来实现三段式的语音agent 
目前我了解的开源框架有 
pipecat 
ten-framework 
有大佬了解这方面的吗  能推荐一下一些开源的框架 以及实际落地的一些相关问题