D3bu9r 在 【OpenWebUI增强】改进,为不支持图像识别的模型添加图像识别 中发帖
由于有些ai模型可能是第三方逆向或者本身就不支持图像识别,有时候用着又想传入一些图片,逛论坛发现已经有在openwebui上xiniah佬的实现:
在Openwebui中对传入的图片进行文字识别后再交给模型处理
但是有一些小小的缺陷:
只能在首轮对话时传入一张图片
只有在首轮对话时才会进行文字识别,在之后的对话中,会将传入的图片剔除
传入多图或者基于图片进行多轮对话都是偶尔可能会用到的。
心想能否基于此代码做出一些改进,于是实现了以下功能:
支持在任意轮对话中传入图片
可以传入多张图片
后续对话可以基于已经传入过的图片继续进行问答
如果对当前轮图像识别结果不满意可以重新进行识别
后续多轮对话中不会剔除图片,但是也不会重复提交图片进行请求。
如果你想为不支持图像识别的模型增加图像识别功能、或者当前使用的模型对其图像识别能力不满意又希望借助其它模型的图像识别能力,那么这个方法...