变色龙 (@bianselong) 在 OpenAI o3 碾压式 AI 数学成绩遭质疑 中发帖
报道称 Epoch AI 因未及时披露 OpenAI 的资助而引发争议,其开发的数学基准测试 FrontierMath 的客观性受到质疑。
IT之家简要介绍下 Epoch AI 组织,是主要由 Open Philanthropy 资助的非营利组织。该组织推出了 FrontierMath 基准测试,通过整合专家级数学问题,衡量和测试 AI 模型的数学能力。
OpenAI 的 o3 模型在 EpochAI 的 FrontierMath 基准测试中,以碾压式优势傲视其它模型,准确率高达 25%,而其他模型得分在 2% 左右。 OpenAI o3 碾压式 AI 数学成绩遭质疑:既当选手又是裁判,翻版 Theranos 世纪骗局 - IT之家