Bunn (@BunnHack) 在领先 AI 模型在复杂物理任务中表现不佳，仍需人类助力中发帖近日，由全球超过50位物理学家联合开发的 “CritPt” 基准测试，旨在评估顶尖 AI 模型在处理未公开的复杂物理研究问题时的能力

Bunn (@BunnHack) 在领先 AI 模型在复杂物理任务中表现不佳，仍需人类助力中发帖

近日，由全球超过50位物理学家联合开发的 “CritPt” 基准测试，旨在评估顶尖 AI 模型在处理未公开的复杂物理研究问题时的能力。测试的目标是模拟早期博士研究生所需的独立研究水平。尽管目前的 AI 系统如谷歌的 “Gemini3Pro” 和 OpenAI 的 “GPT-5” 被寄予厚望，但结果却令人失望。 
在独立评估中，GPT-5-High 以12.6% 的准确率名列榜首，而 Gemini 3 Pro则以9.1% 的成绩紧随其后这一结果表明，即使是表现最好的模型，仍然无法解决大多数任务，特别是在涉及更复杂的研究挑战时。CritPt 测试涵盖了来自量子物理、天体物理、高能物理和生物物理等11个领域的71个研究挑战。为了防止模型简单猜测或检索，所有问题均基于未发表的研究内容。 
测试团队还采用了 “持续解决率” 这一更严格的评估标准，要求模型在五次尝试中至少四次给出正确答案。结果显示，所...