@XnneHang 在单图≠多图：多图理解时 VLM 为什么更容易“胡说”，以及一个两阶段解法中发帖由于整篇过长加个摘要：这篇文章起源于我发现在多图分析时，网页端的表现和 API 调用的结果一致性相差很大，然后我就一步步去拆为什么相差大，然后试图在工程上找补救的过程

@XnneHang 在单图≠多图：多图理解时 VLM 为什么更容易“胡说”，以及一个两阶段解法中发帖

由于整篇过长加个摘要：这篇文章起源于我发现在多图分析时，网页端的表现和 API 调用的结果一致性相差很大，然后我就一步步去拆为什么相差大，然后试图在工程上找补救的过程。  
方法很简单，放在这里希望能帮到一些后来的人减少时间和困惑。  

前情提要
在几周前的一个课设, 课题是关于电池的缺陷检测和自动分拣. 
当时的电池总样本只有不到十根, 缺陷主要体现是外皮缺失. 
因为当时样本很少应该没法通过常规方法练出来能区分是否缺陷的模型, 不管是图像分类还是 yolo 什么的.而课设里推荐方法是用边缘检测和 opencv 来做. 
一方面我不太熟悉 opencv 而且它的 typing 让我感到痛苦, 于是乎我想到了 yolo 定位电池的位置和坐标.（可以通过矩形框定位中心点, 顺逆时针旋转 45° 并比较矩形框长宽比来确定电池朝向和大致角度, 这是为了方便判断抓取的位置和抓手角度）, 然后用...