sxjeru 在 大模型,如何理解视觉型文本字谜 中发帖
今天看到一则有趣又带点哀伤的谜题:“将 093 倒转 180 度,会是什么?”
拿去考验大模型,国内的基本无法给出正解,而 GPT-5、Gemini-2.5-Pro、Grok 4 虽然能给出正确答案 “EGO”,但似乎仍无法从视觉上理解谜题,更像是“记住了答案”。
它们对中间 9 的解释,并非我们视觉认知中的 9 → 6 → G,而是要么不旋转(幻觉),直接从 9 到 g ;要么旋转了,却是从 6 变成小写 g 。
后续经过追问思考,Grok-4 和 GPT-5 成功在七段数码管的场景认知下,正确得到了 6 → G 的过程。
一点有趣的现象,便提笔记了下来。另外,EGO 的意思,是 “真我”,始终如一。