@Derican 在请教下做多模态RAG的佬友中发帖业务涉及图文混排的检索，基本就两种解决方案吧：描述图片内容替换图片，纯文本做向量嵌入和检索；使用多模态嵌入模型；由于后面数据一多，更换嵌入方法的话相当于重新刷一轮数据库，估计会比较麻烦，所以现在有点纠结

@Derican 在请教下做多模态RAG的佬友中发帖

业务涉及图文混排的检索，基本就两种解决方案吧： 

描述图片内容替换图片，纯文本做向量嵌入和检索；
使用多模态嵌入模型； 
由于后面数据一多，更换嵌入方法的话相当于重新刷一轮数据库，估计会比较麻烦，所以现在有点纠结。方案1比较好实现，中转站也有api可以用（由于有其他调用需求，所以都走中转站方便管理）；方案2我看了很多模型都是要自己搞机子部署（或者佬们有推荐的站点），有点成本而且稳定性和效果都未知。