用户名字七个字 (@dbcccc)一道英语题,测下来GPT-5在旗舰级模型中表现最差 中发帖

使用了这道题测试(佬友们自己可以先试试能不能做对): 

题目
答案:
我的测试结果
Gemini-2.5-pro(网页版)能稳定做对(三次全对)
grok-4(API)思考了半天直接给出了正确答案(只测了一次)
claude-4.1-opus(API)思考了半分钟后做对了(只测了一次)
GPT-5(api,非chat)不稳定,测试了五次三次做对两次做错
友情参与的deepseek-v1(网页版)选手给了很大惊喜,不是本土作战,却拿到了两次测试全对的结果
虽然除了gpt-5,别的都是思考模型
但openai既然有底气在网页端把其他模型全下了只保留gpt-5,我拿它和别的比较也不算欺负人吧?
测试不是很严谨,欢迎各位试试。