kai (@KaiMa)今天给chatgpt,gemini,deepseek,小米喂了一张比较长的图 中发帖

只有deepseek识别出来图片信息,而其余根本不知道在说什么。 
薅到了小米的羊毛,配置在Claude code中让agent切分图片然后OCR识别,结果又不知道在说什么。
好奇怪
是因为超长图,内容密度很高且包含大量表格和特殊符号,对OCR和视觉模型的分辨率/上下文窗口都是很大挑战吗?