变色龙 (@bianselong)DeepSeek R1遇难题142次"I give up",研究还称需增加推理时机控制机制 中发帖

当AI遇上字母游戏… 
最新大语言模型推理测试引众议,DeepSeek R1常常在提供错误答案前就“我放弃”了??
Cursor刚刚参与了一项研究,他们基于NPR周日谜题挑战(The Sunday Puzzle),构建了一个包含近600个问题新基准测试。
这些谜题特点是很好理解,不需要专业知识就能看懂,然鹅解决起来却没那么容易。
举个栗子:

想一个熟悉的五个字母、两个音节的单词。将中间字母改为字母表中该字母前面的字母,你将得到一个熟悉的五个字母、三个音节的单词。这个单词是什么?

[图片]
标准答案是alpha → aloha,很容易验证。
但这样的题,即便是在美国长大讲英语的成年人,五天也很难解出来。
[图片]
研究人员用此最新基准,对OpenAI o1、OpenAI o3-mini、DeepSeek R1和Google Gemini Flash Thinking等模...