浅草爱音 (@soyochan) 在针对多图情况下VLM幻觉严重的问题有没有什么优化方法中发帖最近在做一个项目，涉及到VLM对跨场景的三维图像理解和即时决策，当上传360x360图片大于三张时，VLM就要开始产生幻觉胡说八道，甚至无法按prompt中规定的标准格式返回答案我在想单次上传8张图片和单次上传8张图片拼成的一张图片能不能节省token，但导致的注意力分散似乎使得幻觉问题更加严重看了佬友的文章很有启发，但速度和费用是个很大问题，不知道有没有佬友有其他好方法

浅草爱音 (@soyochan) 在针对多图情况下VLM幻觉严重的问题有没有什么优化方法中发帖

最近在做一个项目，涉及到VLM对跨场景的三维图像理解和即时决策，当上传360x360图片大于三张时，VLM就要开始产生幻觉胡说八道，甚至无法按prompt中规定的标准格式返回答案 
我在想单次上传8张图片和单次上传8张图片拼成的一张图片能不能节省token，但导致的注意力分散似乎使得幻觉问题更加严重 
看了佬友的文章很有启发，但速度和费用是个很大问题，不知道有没有佬友有其他好方法。