浅草爱音 (@soyochan) 在 针对多图情况下VLM幻觉严重的问题有没有什么优化方法 中发帖
最近在做一个项目,涉及到VLM对跨场景的三维图像理解和即时决策,当上传360x360图片大于三张时,VLM就要开始产生幻觉胡说八道,甚至无法按prompt中规定的标准格式返回答案
我在想单次上传8张图片和单次上传8张图片拼成的一张图片能不能节省token,但导致的注意力分散似乎使得幻觉问题更加严重
看了佬友的文章很有启发,但速度和费用是个很大问题,不知道有没有佬友有其他好方法。