变色龙 (@bianselong) 在 OpenAI 员工公开指责 xAI：Grok 3 基准测试结果具有误导性中发帖xAI 在其博客上发布了一张图表，展示了 Grok 3 在 AIME 2025（一项近期邀请制数学考试中的高难度数学题集）上的表现

变色龙 (@bianselong) 在 OpenAI 员工公开指责 xAI：Grok 3 基准测试结果具有误导性中发帖

xAI 在其博客上发布了一张图表，展示了 Grok 3 在 AIME 2025（一项近期邀请制数学考试中的高难度数学题集）上的表现。尽管一些专家质疑 AIME 作为 AI 基准的有效性，但 AIME 2025 及其早期版本仍被广泛用于评估模型的数学能力。 
IT之家注意到，xAI 的图表显示，Grok 3 的两个版本 ——Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning—— 在 AIME 2025 上的表现超过了 OpenAI 当前最强的可用模型 o3-mini-high。然而，OpenAI 的员工很快在 X 平台上指出，xAI 的图表并未包含 o3-mini-high 在“cons@64”条件下的 AIME 2025 得分。 
“cons@64”是指“consensus@64”，即允许模型在基准测试中对每个问题尝试 64 次，并将出现频率最高的答...