oldwinterLLM 排行榜的排行榜,御三家各占一席,gemini-2.5-pro > o3 > claude 3.7 sonnet thinking 中发帖

今天这个新出炉的排行榜,是基于28个排行榜(附文末),用数学统计方法计算出来的元meta排行榜。不知道是否和你心中的排名一致呢? 
[image]
来源:https://x.com/scaling01/status/1919389344617414824/photo/1
之前站内有佬友分享过知名LLM排行榜综述: 🚀 给大家分享一下我收集的【LLM 价格和性能】排行榜网页合集
附以下是这个元排行榜的28个基准测试来源:

SimpleBench
SOLO-Bench
AidanBench
SEAL MultiChallenge
LMArena (with Style Control)
LiveBench
ARC-AGI-1
Thematic Generalization, Confabulations and Elimination Game by LechMazur

Them...