堕落的猴子 (@fallmonkey) 在能在本地跑的多模态交互工具？中发帖最近和这些reasoning模型玩多了之后，特别想能常驻一个在我工作学习的时候随时分享一个看到的（图片，文件，文字）给它，然后得到语音反馈

堕落的猴子 (@fallmonkey) 在能在本地跑的多模态交互工具？中发帖

最近和这些reasoning模型玩多了之后，特别想能常驻一个在我工作学习的时候随时分享一个看到的（图片，文件，文字）给它，然后得到语音反馈。换句话说就是本地跑的Gemini Live。 
文字部分最好可以切换不同的模型接口，其他多模态处理方面可以直接封装好。 
目前有什么开源方案比较接近这个吗？闭源但是允许切换文字模型的也可以。纯文字聊天的打包类工具有很多，但是支持语音（+图片或者视频）输入及语音输出的就几乎没有了。