@bige0123 在评估 Gemini 2.5 Deep Think 的数学能力中发帖转载于epoch ai 于今日发布于的Gemini 2.5 Deep Think在其FrontierMath上的研究报告 FrontierMath是由epoch ai编制，openai委托的一个包含数百道未公开、专家级数学问题的评测基准，这些问题通常需要专家花费数小时至数天才能解答

@bige0123 在评估 Gemini 2.5 Deep Think 的数学能力中发帖

转载于epoch ai 于今日发布于的Gemini 2.5 Deep Think在其FrontierMath上的研究报告 
FrontierMath是由epoch ai编制，openai委托的一个包含数百道未公开、专家级数学问题的评测基准，这些问题通常需要专家花费数小时至数天才能解答。难度等级1—3涵盖本科到研究生早期水平的问题，第4级的问题则为数学教授和博士后研究员作为短期研究项目开发。 
个人认为:FrontierMath 是目前的一个相当高水平的数学bench，远比早已饱和的AIME等bench有效。 
简评： 
它在运用背景知识和进行精确计算方面有所改进。它可以成为一个有用的研究助手，并可能对几何学采取更概念化的方法。它在创造力方面表现有限，有时在引用方面会遇到困难。 
 [image] 
注：OpenAI报告称：GPT-5-Pro在FrontierMath的非保留数据集上的内部评...