chenastronAI 什么时候能打败行测题 中发帖

拿R1、gemini-thinking、QwQ做了几个行测题,发现没一道能做对的。 
比如下面这道:

80 60 36
和 60 21 19
仅从数字运算来考虑,这两组数字有什么共同的规律?

直接触发无限思考。R1到最后有概率胡言乱语冒出日语,然后截断。QwQ到最后一个连等式无限循环输出。gemini瞎编答案。

80 60 36
60 21 19
5 24 ?
第三组数字中,填入什么数,能使这些数字呈现一定的规律性。
备选答案有 9 19 29 39

这种问法会好一点。QwQ不会卡bug了,但给了个弱智答案。R1还是截断了。
那什么 Humanity’s Last Exam,里面有些题根本不是考察机器能不能像人一样思考和解题。
还不如搞几道行测的数字规律题,感觉大模型在这些题上都会是0分。
这种行测题虽然很搞,似乎也没啥现实意义,但模型也许真的需要能够像人...