三点水也 (@laucherish) 在没想到测试Codex和GPT降智的好方法竟然是我提出的问题中发帖[!abstract] 最近很多佬友都发现 GPT 5.5 存在降智的情况，有热心佬友写了测试是否降智的脚本，我认真一看，发现测试题目竟然是我当初提出的问题，心里挺高兴，总算是为社区做了点贡献

三点水也 (@laucherish) 在没想到测试Codex和GPT降智的好方法竟然是我提出的问题中发帖

[!abstract] 
最近很多佬友都发现 GPT 5.5 存在降智的情况，有热心佬友写了测试是否降智的脚本，我认真一看，发现测试题目竟然是我当初提出的问题，心里挺高兴，总算是为社区做了点贡献。 

原始题目在这里 
这道题很有意思，看似很难，其实我想大部分佬友多读几遍题，慢慢推理，应该都能做出来。 
但是为什么很多大模型都会做错呢？我认为是因为这道题有一点反常规，大模型如果按照训练材料来做题，必错。 

[!bug] 
模型必须靠自己推理才能做对。 

所以这道题用来测试模型是否降智非常合适。 
 [image] 
可以看到，做对的情况就是推理token比较大。做错就是被降智到推理token是516的情况。 
测试脚本在这里