布衣 (@Hermite)GLM5.2在livebench上核爆了,这是针对性刷榜了还是真的起飞了 中发帖

[image] 
Livebench这个benchmark是我个人认为最准确、最符合体感而且几乎没有被刷过榜的榜单,除了3个缺陷:1,国产模型的language average项有略微偏低的bias;2,Gemini测评首发版无法反应光速降智情况;3,benchmark普遍很短不能反映长上下文能力。
这个benchmark准确反映了当初LLaMA 4的暴死、M2.7的拉了一地、M3的不如预期、Qwen3.6 27B和gemma4 31B的惊人智能密度以及fable5的fallback问题,我个人看来几乎没有出过错误。
这把glm5.2在榜上和4.6Opus high旗鼓相当,如果考虑国产模型在livebench上的language average的bias,在livebench上已经是对标gpt 5.4 xhigh,摸到gpt 5.5 xhigh的水平了。
这是第一次对Livebe...