变色龙 (@bianselong)o3权威评测报告:AI能力实现关键跃升,但仍未达到AGI水平 中发帖

鉴于不同的推理预算,效率——尤其是计算成本——已成为衡量性能时不可或缺的指标。我们已经记录了总成本和每个任务的成本,以此作为衡量效率的初步指标。在整个行业中,我们需要确定哪个指标最能反映效率,但从大方向来看,成本是一个合理的起点。 
在高效率模式下,75.7%的得分符合ARC-AGI-Pub的预算规定(成本低于1万美元),因此有资格占据公共排行榜的首位。
尽管低效率模式下的87.5%得分代价不菲,但它仍然显示了随着计算量的增加,新任务的性能确实有所提升——至少在这个层面上是如此。
这些成绩并非单纯依靠增加算力资源来实现的。OpenAI的新o3模型在适应新任务方面取得了重大进步,这不仅仅是渐进式的改进,而是一次真正的突破,标志着人工智能能力相比以往的大语言模型有了质的飞跃。o3能够适应它之前从未遇到过的任务,其在ARC-AGI领域的表现接近人类的水平。
当然,这种泛化能力的成本相当高,...