维ABC (@WABC)业内:测试越来越难以评估AI水平 普通人更难感受AI进步 中发帖

1月13日消息,2024年底,OpenAI前员工凯尔西·派珀(Kelsey Piper)撰文探讨人工智能的“规模定律”是否已遇到技术瓶颈。她认为,这个问题并不像许多人认为的那样重要:现有的人工智能系统已经足够强大,能够深刻改变我们的世界。无论规模定律是否成立,未来几年都将由人工智能的进步主导。 

[image]
文章发布不到一周后,OpenAI推出了年终更新,其中包括最新的大语言模型o3。虽然o3未能完全证明“规模定律”在未来是否仍是推动人工智能进步的核心规律,但它无疑粉碎了“人工智能发展已陷入瓶颈”的说法。
o3的表现极其令人惊叹。为了更好地理解它的非凡之处,我们需要先探讨如何科学地评估人工智能系统。
人工智能标准化测试
如果想比较两个语言模型的表现,需要用一组它们以前从未接触过的问题进行测试。然而,这远比听起来要困难得多,因为这些模型在训练过程中已经接触了大量文本,早已覆...