Bunn (@BunnHack)领先 AI 模型在复杂物理任务中表现不佳,仍需人类助力 中发帖

近日,由全球超过50位物理学家联合开发的 “CritPt” 基准测试,旨在评估顶尖 AI 模型在处理未公开的复杂物理研究问题时的能力。测试的目标是模拟早期博士研究生所需的独立研究水平。尽管目前的 AI 系统如谷歌的 “Gemini3Pro” 和 OpenAI 的 “GPT-5” 被寄予厚望,但结果却令人失望。 
在独立评估中,GPT-5-High 以12.6% 的准确率名列榜首,而 Gemini 3 Pro则以9.1% 的成绩紧随其后这一结果表明,即使是表现最好的模型,仍然无法解决大多数任务,特别是在涉及更复杂的研究挑战时。CritPt 测试涵盖了来自量子物理、天体物理、高能物理和生物物理等11个领域的71个研究挑战。为了防止模型简单猜测或检索,所有问题均基于未发表的研究内容。
测试团队还采用了 “持续解决率” 这一更严格的评估标准,要求模型在五次尝试中至少四次给出正确答案。结果显示,所...