变色龙 (@bianselong) 在苹果最新研究：现有 AI 大模型“更像是在记忆，而非真正的推理” 中发帖苹果研究人员对现有的前沿“大型推理模型”—— 如 OpenAI o3-mini、DeepSeek-R1、Anthropic 的 Claude 3.7 Sonnet Thinking 和谷歌 Gemini Thinking—— 进行了系统评估

变色龙 (@bianselong) 在苹果最新研究：现有 AI 大模型“更像是在记忆，而非真正的推理” 中发帖

苹果研究人员对现有的前沿“大型推理模型”—— 如 OpenAI o3-mini、DeepSeek-R1、Anthropic 的 Claude 3.7 Sonnet Thinking 和谷歌 Gemini Thinking—— 进行了系统评估。 
研究发现，尽管这些模型具备生成详细“思考链”的能力，并在中等复杂度任务上表现出优势，但其推理能力存在根本性局限：当问题复杂度超过特定临界点时，模型性能会完全崩溃至“零准确率”。 
此外，在模型推理过程中，即使仍有充足的推理算力，它们用于“思考”的 token 数量反而随难度上升而减少，这种现象意味着现有推理方法存在根本局限性。 苹果最新研究：现有 AI 大模型“更像是在记忆，而非真正的推理” - IT之家