chenastron 在 AI 什么时候能打败行测题中发帖拿R1、gemini-thinking、QwQ做了几个行测题，发现没一道能做对的

chenastron 在 AI 什么时候能打败行测题中发帖

拿R1、gemini-thinking、QwQ做了几个行测题，发现没一道能做对的。 
比如下面这道： 

80 60 36 
和 60 21 19 
仅从数字运算来考虑，这两组数字有什么共同的规律？ 

直接触发无限思考。R1到最后有概率胡言乱语冒出日语，然后截断。QwQ到最后一个连等式无限循环输出。gemini瞎编答案。 

80 60 36 
60 21 19 
5 24 ? 
第三组数字中，填入什么数，能使这些数字呈现一定的规律性。 
备选答案有 9 19 29 39 

这种问法会好一点。QwQ不会卡bug了，但给了个弱智答案。R1还是截断了。 
那什么 Humanity’s Last Exam，里面有些题根本不是考察机器能不能像人一样思考和解题。 
还不如搞几道行测的数字规律题，感觉大模型在这些题上都会是0分。 
这种行测题虽然很搞，似乎也没啥现实意义，但模型也许真的需要能够像人...