pwtramp123 在 GROK 3 推理模式测试完毕 结果如下 中发帖
可以说严格等于 O3 mini high 各自作对了对方作错的一道,
但是绝大多数都是同对同错 o1 pro (120%)> o3 mini high(100%)=grok 3 > o1(95%) >r1(70%)
来源上述题目以及更难的变体,
通过一些题目可以看出推理上限几乎完全相同,错误的回答都相似来源于数据集? 但是o3mh 速度要快一些.