runner dhero 在这个lmarena的text排名就是狗屎啊中发帖靠人类用户去评价llm的回答质量至少在text这个分类还是不靠谱 [image] 别的还能说道说道，这gpt 4o是怎么能在gpt5high上面的，不能因为gpt4o比gpt5high更能提供情绪价值它就分高吧，论能力gpt5high能爆gpt4o这个连推理能力都没有的模型八条街，事实上我觉得习惯了它那个极度精简的用语以后它实力确实也是明显在gemini 2.5 pro之上的感觉虽然大伙都在喷刷题榜，但是这几个顶尖模型之间的比拼还真是得参考刷题榜，起码比这什么4o>gpt5high的抽象榜要强

runner dhero 在这个lmarena的text排名就是狗屎啊中发帖

靠人类用户去评价llm的回答质量至少在text这个分类还是不靠谱 
 [image] 
别的还能说道说道，这gpt 4o是怎么能在gpt5high上面的，不能因为gpt4o比gpt5high更能提供情绪价值它就分高吧，论能力gpt5high能爆gpt4o这个连推理能力都没有的模型八条街，事实上我觉得习惯了它那个极度精简的用语以后它实力确实也是明显在gemini 2.5 pro之上的 
感觉虽然大伙都在喷刷题榜，但是这几个顶尖模型之间的比拼还真是得参考刷题榜，起码比这什么4o>gpt5high的抽象榜要强