变色龙 (@bianselong) 在 Claude 3.5两小时暴虐50多名专家,编程10倍速飙升 中发帖
[image]
论文地址:https://metr.org/AI_R_D_Evaluation_Report.pdf
令人印象深刻的是,AI编程速度能以超越人类10倍速度生成并测试各种方案。
在一个需要编写自定义内核以优化前缀和运算的任务中,o1-preview不仅完成了任务,还创造了惊人的成绩:将运行时间压缩到0.64毫秒,甚至超越了最优秀的人类专家解决方案(0.67毫秒)。
不过,当比赛时间延长至8小时,人类却展现出了明显的优势。
由下可以看出,随着时间逐渐拉长,Claude 3.5 Sonnet和o1-preview的性能提升逐渐趋于平缓。 Claude 3.5两小时暴虐50多名专家,编程10倍速飙升!但8小时曝出惊人短板