@JayNing 在借着o1的风头科普一些有难度的数学和代码测评集以及水一贴中发帖众所周知O1发布了, 但我看了一下L站跑的test case似乎与Science, technology, engineering, and mathematics (STEM)专业关系不大, 换句话说就是不够难也不够能体现模型的实力, 那有没有什么我们又能看懂又能体现模型实力的测试呢? 当然有, 我们这里介绍两个benchmark: SWE-verify和OlympicArena 这里放一些例子来解释一下这两个数据集: SWE-bench是一个测试系统解决GitHub问题能力的数据集自动发出问题

@JayNing 在借着o1的风头科普一些有难度的数学和代码测评集以及水一贴中发帖

众所周知O1发布了, 但我看了一下L站跑的test case似乎与Science, technology, engineering, and mathematics (STEM)专业关系不大, 换句话说就是不够难也不够能体现模型的实力, 那有没有什么我们又能看懂又能体现模型实力的测试呢? 
当然有, 我们这里介绍两个benchmark: SWE-verify和OlympicArena 
这里放一些例子来解释一下这两个数据集: 
SWE-bench是一个测试系统解决GitHub问题能力的数据集 自动发出问题。该数据集收集了 2,294 个 Issue-Pull 请求 来自 12 个流行 Python 存储库的对。评估是通过使用 PR 后行为作为参考解决方案的单元测试验证来进行的。 
 [7b1f5774eaaf8eec865b2167bde9253] 
在o1之前的模型能力: 
 [imag...