Ayndpa 在 突然发现现在的模型都答不对以前的问题了 中发帖
有一天,一个女孩参加数学考试只得了38分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了 88分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这8怎么一半是绿的一半是红的,你以为我是傻子吗?”女孩被打后,委屈地哭了起来,什么也没说。过了一会儿,父亲突然崩溃了。问:父亲为什么崩溃了?
这个问题在o1-preview刚推出的那段时间很火,今天突然刷到好奇去试了试现在的模型,全军覆没。测试模型有: o4-mini(ChatGPT 免费用户), Gemini 2.5(Gemini App, Flash & Pro), Qwen 3, DeepSeek R1, Grok Think