Bruuuuuuce (@Robust)一个看似很简单的推理问题,推理模型却全军覆没? 中发帖

偶然想到了一个很经典的brain teaser,用来测一测各大推理模型,结果好像没有一个能答对的? 
问题很简单:“如果昨天是明天就好了,那今天就是周五了”。今天是周几?
答案也基本秒出:周二
模型回答如下:
gemini-exp-1206:
[image]
deepseek-r1-lite-preview:
[image]
o1:
[image]
更不用说非推理模型了:
gpt4o & claude3.5sonnet:
[image]
因为没有o1pro的权限,所以也就只测了这些。不知道是在tokenize方面有问题导致理解问题,还是本身推理能力就不够。不知道各位佬有没有什么头绪?
欢迎测试其他模型