@bige0123终极LLM性能排行榜-综合了 28 个顶尖基准测试 中发帖

[image] 
制作来源于:https://x.com/scaling01/status/1919217718420508782
一共汇总收集了28个基准然后取平均分(但看起来远远超过28个)
通用基准测试:
SimpleBench
SOLO-Bench
AidanBench
SEAL by Scale (特别是 MultiChallenge 排行榜)
LMArena (带风格控制)
LiveBench
ARC-AGI
LechMazur 的 Thematic Generalization
Lech Mazur 的 Elimination Game
Lech Mazur 的 Confabulations
EQBench (特别是长文写作排行榜)
Fiction-Live Bench
MC-Bench (按胜率排序)
TrackingAI - IQ Ben...