youthX关于codex 降智 中发帖

最近看到大家都在吐槽 codex降智了,今天刚好在github 上看到有个项目批量测试一道糖果数学题,并统计 reasoning tokens 与正确率。贴一下我的结果,我的测出来是没有降智,也不知靠谱不,有懂的佬不 
[image]