runner dhero实际上gpt5用习惯了确实体验非常不错,但是我也理解它为啥在arena上打不过gemini甚至o3 中发帖

就是它对于常见任务不管是写文、翻译这种简单任务,还是学术方面资料查找这种联网困难任务还是写代码这种coding任务,都有很好的表现,而且目前来说哪怕用auto一般也确实可以路由到合适的模型,虽然我是已经习惯了除了翻译一律用thinking里的进阶思考了(最近新增的区分) 
对于一些gemini 2.5 pro解答不对的问题(包括gemini 2.5 pro联网出现幻觉还有就是做题做不对),gpt5都能一次过,而且靠谱程度高不少,幻觉率显著降低
但gpt5-thinking这个模型最大的问题就是不说人话,就是可能它合成数据太多了或者智商太高了,它的表达太浓缩,信息密度过大。我不知道英语有没有这个问题,反正我英语也没有好到可以全程和gpt用英语对话,但是中文的这个问题就是很严重。有的时候我都感觉这玩意的回答信息密度堪比文言文,而且时不时就能看见它用到一些中文里确实也有但是我十年都见不到一次的...