runner dhero 在 这个lmarena的text排名就是狗屎啊 中发帖
靠人类用户去评价llm的回答质量至少在text这个分类还是不靠谱
[image]
别的还能说道说道,这gpt 4o是怎么能在gpt5high上面的,不能因为gpt4o比gpt5high更能提供情绪价值它就分高吧,论能力gpt5high能爆gpt4o这个连推理能力都没有的模型八条街,事实上我觉得习惯了它那个极度精简的用语以后它实力确实也是明显在gemini 2.5 pro之上的
感觉虽然大伙都在喷刷题榜,但是这几个顶尖模型之间的比拼还真是得参考刷题榜,起码比这什么4o>gpt5high的抽象榜要强