@Derican 在 请教下做多模态RAG的佬友 中发帖
业务涉及图文混排的检索,基本就两种解决方案吧:
描述图片内容替换图片,纯文本做向量嵌入和检索;
使用多模态嵌入模型;
由于后面数据一多,更换嵌入方法的话相当于重新刷一轮数据库,估计会比较麻烦,所以现在有点纠结。方案1比较好实现,中转站也有api可以用(由于有其他调用需求,所以都走中转站方便管理);方案2我看了很多模型都是要自己搞机子部署(或者佬们有推荐的站点),有点成本而且稳定性和效果都未知。