pwtramp123 在 LiveBench最新结果,O1推理分数91 有必要引入新基准 中发帖
目前的推理三项是 谎言之网(判断谁说假话) 斑马谜题 空间?
快要饱和了,
引入新基准可以使得O1 full 得分为5/100 O1 pro 得分 10/100 其余皆为0
但是知识背景也不需要超过初中.大家认为呢?