荔福路绅士 (@damin) 在 【AI吃瓜测试】关于某医院的瓜,我想到测试模型能力的新办法 中发帖
我将其命名为【AI吃瓜测试】
偶然刷到这份吃瓜群众精心整理的PDF
医院.pdf (1.8 MB)
内容全是文字扫描件转图片再合成的PDF,质量感人。
突发奇想:这不就是绝佳的模型能力测试题吗?
思路是让模型识别PDF内容,提炼关键信息,然后生成一张图,展示核心人物、时间线和事件。
这直接考验了模型的OCR(文字识别)、推理总结、以及图像生成能力,简直是多模态的“终极考试”!
结果却很扎心:目前没一个模型能完美完成这三项任务。
最接近目标的是Gemini 2.5 Pro,ocr识别最完美,也能够完整梳理关键信息,但是生图部分失败;
Grok 3的OCR能力简直拉胯,ocr对中文识别不准确,自然推理和生图不能完成;
sonnet3.7直接无法读取文件,令人失望。
本地部署的gemma3都能乖乖输出,不得不说Google还是强。
可惜我没OpenAI会员,无法测试ChatG...