@sparklydreamopenai 合订本 中发帖

[benchmark-deepseek] 
看到 DeepSeek 发的这个 Benchmark 感觉不太对啊。为啥 GPT-5 才 2537 呢?我记得不是 o3 和 o4-mini 就有 2700 多了吗?
[benchmark-openai]
DeepSeek 测试的 GPT-5-high 在 Codeforces 上的成绩不如 OpenAI 自己宣传的 o3 和 o4-mini。
那么,有以下几种可能:

GPT-5 相比于 o3 和 o4-mini 退步了。
注意 OpenAI 的 Benchmark 里写了 (with terminal),DeepSeek 的测试可能没给 AI 用终端导致 GPT-5 测出来不如 o4-mini。
这俩测试其中至少一个有问题。

看起来 2 是最合理的解释。但是又发现 OpenAI 在发布 GPT-5 的时候完全没有 Codefor...