荔福路绅士 (@damin) 在【AI吃瓜测试】关于某医院的瓜，我想到测试模型能力的新办法中发帖我将其命名为【AI吃瓜测试】偶然刷到这份吃瓜群众精心整理的PDF 医院.pdf (1.8 MB) 内容全是文字扫描件转图片再合成的PDF，质量感人

荔福路绅士 (@damin) 在【AI吃瓜测试】关于某医院的瓜，我想到测试模型能力的新办法中发帖

我将其命名为【AI吃瓜测试】
偶然刷到这份吃瓜群众精心整理的PDF 
医院.pdf (1.8 MB) 

内容全是文字扫描件转图片再合成的PDF，质量感人。 
突发奇想：这不就是绝佳的模型能力测试题吗？
思路是让模型识别PDF内容，提炼关键信息，然后生成一张图，展示核心人物、时间线和事件。 
这直接考验了模型的OCR（文字识别）、推理总结、以及图像生成能力，简直是多模态的“终极考试”！ 
结果却很扎心：目前没一个模型能完美完成这三项任务。
最接近目标的是Gemini 2.5 Pro，ocr识别最完美，也能够完整梳理关键信息，但是生图部分失败； 
Grok 3的OCR能力简直拉胯，ocr对中文识别不准确，自然推理和生图不能完成； 
sonnet3.7直接无法读取文件，令人失望。 
本地部署的gemma3都能乖乖输出，不得不说Google还是强。 
可惜我没OpenAI会员，无法测试ChatG...