维ABC (@WABC) 在业内：测试越来越难以评估AI水平普通人更难感受AI进步中发帖1月13日消息，2024年底，OpenAI前员工凯尔西·派珀（Kelsey Piper）撰文探讨人工智能的“规模定律”是否已遇到技术瓶颈

维ABC (@WABC) 在业内：测试越来越难以评估AI水平普通人更难感受AI进步中发帖

1月13日消息，2024年底，OpenAI前员工凯尔西·派珀（Kelsey Piper）撰文探讨人工智能的“规模定律”是否已遇到技术瓶颈。她认为，这个问题并不像许多人认为的那样重要：现有的人工智能系统已经足够强大，能够深刻改变我们的世界。无论规模定律是否成立，未来几年都将由人工智能的进步主导。 

 [image] 
文章发布不到一周后，OpenAI推出了年终更新，其中包括最新的大语言模型o3。虽然o3未能完全证明“规模定律”在未来是否仍是推动人工智能进步的核心规律，但它无疑粉碎了“人工智能发展已陷入瓶颈”的说法。 
o3的表现极其令人惊叹。为了更好地理解它的非凡之处，我们需要先探讨如何科学地评估人工智能系统。 
人工智能标准化测试 
如果想比较两个语言模型的表现，需要用一组它们以前从未接触过的问题进行测试。然而，这远比听起来要困难得多，因为这些模型在训练过程中已经接触了大量文本，早已覆...