kai (@KaiMa) 在 今天给chatgpt,gemini,deepseek,小米喂了一张比较长的图 中发帖
只有deepseek识别出来图片信息,而其余根本不知道在说什么。
薅到了小米的羊毛,配置在Claude code中让agent切分图片然后OCR识别,结果又不知道在说什么。
好奇怪
是因为超长图,内容密度很高且包含大量表格和特殊符号,对OCR和视觉模型的分辨率/上下文窗口都是很大挑战吗?