runner dhero 在赶在第一时间测试了仨小时gpt5，结论就是非常失望中发帖目前看跑分确实是SOTA水平，但是和claude、gemini和grok的旗舰模型都拉不开质的差距，也就一次正常版本迭代的提升水平，海外的那三家应该很容易就可以赶上解决困难问题的性能上包括写代码确实有提升，但是写代码仍旧比不上claude，虽然跑分号称比claude高一丢丢，但真没感觉更好用

runner dhero 在赶在第一时间测试了仨小时gpt5，结论就是非常失望中发帖

目前看跑分确实是SOTA水平，但是和claude、gemini和grok的旗舰模型都拉不开质的差距，也就一次正常版本迭代的提升水平，海外的那三家应该很容易就可以赶上 
解决困难问题的性能上包括写代码确实有提升，但是写代码仍旧比不上claude，虽然跑分号称比claude高一丢丢，但真没感觉更好用。 
而且性能提升的代价是人味儿没了，这个我觉得非常难受。 
gpt不管是一开始石破天惊的3.5，还是后来的4和4o，4.5，我觉得它最大的特点就是比起别家明显就是奔着卷跑分去的干活模型，它更有人味儿，尤其是4o和4.5，这是一种很微妙的感觉，但是一旦习惯了日常非高难问题和这种有人味儿的风格的ai闲聊之后，再遇到deepseek或者grok那种卷王味儿爆表的ai，就明显感觉出优势了。目前除了4o 4.5我感觉最有人味儿的AI是2.5 pro，有人味儿可能需要非常大的底模才可以做到，那种用强化学习做出...