Nectivelle 在 ARC-AGI-3 基准测试发布中发帖Arc Price 发布了 ARC-AGI-3 基准测试

Nectivelle 在 ARC-AGI-3 基准测试发布中发帖

Arc Price 发布了 ARC-AGI-3 基准测试。 
 [image] 
ARC-AGI-3 是目前全球唯一尚未饱和的智能体（Agentic）基准测试，旨在考查 AI “如何学习”而非“已知什么”。它通过 135 个完全陌生的无指令游戏环境，要求 AI 仅靠核心知识先验进行自主探索、假设与规划。目前人类能轻松获得 100% 满分，而包括 Gemini 3.1 Pro (0.37%) 在内的顶级 AI 得分均不足 1%。这种极大的表现鸿沟精准量化了当前模型在技能获取效率上与真正 AGI 的本质差距。 
部分前沿模型分数： 




Provider
Model
Score




Google
Gemini 3.1 Pro Preview
0.37%


OpenAI
GPT 5.4 (High)
0.26%


Anthropic
Opus 4.6 (Max)
0.25%


xA...