三点水也 (@laucherish)没想到测试Codex和GPT降智的好方法竟然是我提出的问题 中发帖

[!abstract] 
最近很多佬友都发现 GPT 5.5 存在降智的情况,有热心佬友写了测试是否降智的脚本,我认真一看,发现测试题目竟然是我当初提出的问题,心里挺高兴,总算是为社区做了点贡献。

原始题目在这里
这道题很有意思,看似很难,其实我想大部分佬友多读几遍题,慢慢推理,应该都能做出来。
但是为什么很多大模型都会做错呢?我认为是因为这道题有一点反常规,大模型如果按照训练材料来做题,必错。

[!bug]
模型必须靠自己推理才能做对。

所以这道题用来测试模型是否降智非常合适。
[image]
可以看到,做对的情况就是推理token比较大。做错就是被降智到推理token是516的情况。
测试脚本在这里