变色龙 (@bianselong) 在 DeepSeek R1遇难题142次"I give up"，研究还称需增加推理时机控制机制中发帖当AI遇上字母游戏… 最新大语言模型推理测试引众议，DeepSeek R1常常在提供错误答案前就“我放弃”了？？ Cursor刚刚参与了一项研究，他们基于NPR周日谜题挑战（The Sunday Puzzle），构建了一个包含近600个问题新基准测试

变色龙 (@bianselong) 在 DeepSeek R1遇难题142次"I give up"，研究还称需增加推理时机控制机制中发帖

当AI遇上字母游戏… 
最新大语言模型推理测试引众议，DeepSeek R1常常在提供错误答案前就“我放弃”了？？ 
Cursor刚刚参与了一项研究，他们基于NPR周日谜题挑战（The Sunday Puzzle），构建了一个包含近600个问题新基准测试。 
这些谜题特点是很好理解，不需要专业知识就能看懂，然鹅解决起来却没那么容易。 
举个栗子： 

想一个熟悉的五个字母、两个音节的单词。将中间字母改为字母表中该字母前面的字母，你将得到一个熟悉的五个字母、三个音节的单词。这个单词是什么？ 

[图片] 
标准答案是alpha → aloha，很容易验证。 
但这样的题，即便是在美国长大讲英语的成年人，五天也很难解出来。 
[图片] 
研究人员用此最新基准，对OpenAI o1、OpenAI o3-mini、DeepSeek R1和Google Gemini Flash Thinking等模...