@bige0123 在 评估 Gemini 2.5 Deep Think 的数学能力 中发帖
转载于epoch ai 于今日发布于的Gemini 2.5 Deep Think在其FrontierMath上的研究报告
FrontierMath是由epoch ai编制,openai委托的一个包含数百道未公开、专家级数学问题的评测基准,这些问题通常需要专家花费数小时至数天才能解答。难度等级1—3涵盖本科到研究生早期水平的问题,第4级的问题则为数学教授和博士后研究员作为短期研究项目开发。
个人认为:FrontierMath 是目前的一个相当高水平的数学bench,远比早已饱和的AIME等bench有效。
简评:
它在运用背景知识和进行精确计算方面有所改进。它可以成为一个有用的研究助手,并可能对几何学采取更概念化的方法。它在创造力方面表现有限,有时在引用方面会遇到困难。
[image]
注:OpenAI报告称:GPT-5-Pro在FrontierMath的非保留数据集上的内部评...