用户名字七个字 (@dbcccc) 在一道英语题，测下来GPT-5在旗舰级模型中表现最差中发帖使用了这道题测试（佬友们自己可以先试试能不能做对）： ▶ 题目答案：我的测试结果 Gemini-2.5-pro（网页版）能稳定做对（三次全对） grok-4（API）思考了半天直接给出了正确答案（只测了一次） claude-4.1-opus（API）思考了半分钟后做对了（只测了一次） GPT-5（api，非chat）不稳定，测试了五次三次做对两次做错友情参与的deepseek-v1（网页版）选手给了很大惊喜，不是本土作战，却拿到了两次测试全对的结果虽然除了gpt-5，别的都是思考模型但openai既然有底气在网页端把其他模型全下了只保留gpt-5，我拿它和别的比较也不算欺负人吧？测试不是很严谨，欢迎各位试试

用户名字七个字 (@dbcccc) 在一道英语题，测下来GPT-5在旗舰级模型中表现最差中发帖

使用了这道题测试（佬友们自己可以先试试能不能做对）： 
▶ 
题目
答案： 
我的测试结果 
Gemini-2.5-pro（网页版）能稳定做对（三次全对） 
grok-4（API）思考了半天直接给出了正确答案（只测了一次） 
claude-4.1-opus（API）思考了半分钟后做对了（只测了一次） 
GPT-5（api，非chat）不稳定，测试了五次三次做对两次做错 
友情参与的deepseek-v1（网页版）选手给了很大惊喜，不是本土作战，却拿到了两次测试全对的结果 
虽然除了gpt-5，别的都是思考模型 
但openai既然有底气在网页端把其他模型全下了只保留gpt-5，我拿它和别的比较也不算欺负人吧？ 
测试不是很严谨，欢迎各位试试。