堕落的猴子 (@fallmonkey) 在 能在本地跑的多模态交互工具? 中发帖
最近和这些reasoning模型玩多了之后,特别想能常驻一个在我工作学习的时候随时分享一个看到的(图片,文件,文字)给它,然后得到语音反馈。换句话说就是本地跑的Gemini Live。
文字部分最好可以切换不同的模型接口,其他多模态处理方面可以直接封装好。
目前有什么开源方案比较接近这个吗?闭源但是允许切换文字模型的也可以。纯文字聊天的打包类工具有很多,但是支持语音(+图片或者视频)输入及语音输出的就几乎没有了。