@JayNing借着o1的风头科普一些有难度的数学和代码测评集以及水一贴 中发帖

众所周知O1发布了, 但我看了一下L站跑的test case似乎与Science, technology, engineering, and mathematics (STEM)专业关系不大, 换句话说就是不够难也不够能体现模型的实力, 那有没有什么我们又能看懂又能体现模型实力的测试呢? 
当然有, 我们这里介绍两个benchmark: SWE-verify和OlympicArena
这里放一些例子来解释一下这两个数据集:
SWE-bench是一个测试系统解决GitHub问题能力的数据集 自动发出问题。该数据集收集了 2,294 个 Issue-Pull 请求 来自 12 个流行 Python 存储库的对。评估是通过使用 PR 后行为作为参考解决方案的单元测试验证来进行的。
[7b1f5774eaaf8eec865b2167bde9253]
在o1之前的模型能力:
[imag...