@sparklydream 在 openai 合订本中发帖[benchmark-deepseek] 看到 DeepSeek 发的这个 Benchmark 感觉不太对啊

@sparklydream 在 openai 合订本中发帖

[benchmark-deepseek] 
看到 DeepSeek 发的这个 Benchmark 感觉不太对啊。为啥 GPT-5 才 2537 呢？我记得不是 o3 和 o4-mini 就有 2700 多了吗？ 
 [benchmark-openai] 
DeepSeek 测试的 GPT-5-high 在 Codeforces 上的成绩不如 OpenAI 自己宣传的 o3 和 o4-mini。 
那么，有以下几种可能： 

GPT-5 相比于 o3 和 o4-mini 退步了。
注意 OpenAI 的 Benchmark 里写了 (with terminal)，DeepSeek 的测试可能没给 AI 用终端导致 GPT-5 测出来不如 o4-mini。
这俩测试其中至少一个有问题。

看起来 2 是最合理的解释。但是又发现 OpenAI 在发布 GPT-5 的时候完全没有 Codefor...