变色龙 (@bianselong) 在 o3权威评测报告：AI能力实现关键跃升，但仍未达到AGI水平中发帖鉴于不同的推理预算，效率——尤其是计算成本——已成为衡量性能时不可或缺的指标

变色龙 (@bianselong) 在 o3权威评测报告：AI能力实现关键跃升，但仍未达到AGI水平中发帖

鉴于不同的推理预算，效率——尤其是计算成本——已成为衡量性能时不可或缺的指标。我们已经记录了总成本和每个任务的成本，以此作为衡量效率的初步指标。在整个行业中，我们需要确定哪个指标最能反映效率，但从大方向来看，成本是一个合理的起点。 
在高效率模式下，75.7%的得分符合ARC-AGI-Pub的预算规定（成本低于1万美元），因此有资格占据公共排行榜的首位。 
尽管低效率模式下的87.5%得分代价不菲，但它仍然显示了随着计算量的增加，新任务的性能确实有所提升——至少在这个层面上是如此。 
这些成绩并非单纯依靠增加算力资源来实现的。OpenAI的新o3模型在适应新任务方面取得了重大进步，这不仅仅是渐进式的改进，而是一次真正的突破，标志着人工智能能力相比以往的大语言模型有了质的飞跃。o3能够适应它之前从未遇到过的任务，其在ARC-AGI领域的表现接近人类的水平。 
当然，这种泛化能力的成本相当高，...