Nectivelle 在 ARC-AGI-3 基准测试发布 中发帖
Arc Price 发布了 ARC-AGI-3 基准测试。
[image]
ARC-AGI-3 是目前全球唯一尚未饱和的智能体(Agentic)基准测试,旨在考查 AI “如何学习”而非“已知什么”。它通过 135 个完全陌生的无指令游戏环境,要求 AI 仅靠核心知识先验进行自主探索、假设与规划。目前人类能轻松获得 100% 满分,而包括 Gemini 3.1 Pro (0.37%) 在内的顶级 AI 得分均不足 1%。这种极大的表现鸿沟精准量化了当前模型在技能获取效率上与真正 AGI 的本质差距。
部分前沿模型分数:
Provider
Model
Score
Gemini 3.1 Pro Preview
0.37%
OpenAI
GPT 5.4 (High)
0.26%
Anthropic
Opus 4.6 (Max)
0.25%
xA...