布衣 (@Hermite) 在 GLM5.2在livebench上核爆了，这是针对性刷榜了还是真的起飞了中发帖[image] Livebench这个benchmark是我个人认为最准确、最符合体感而且几乎没有被刷过榜的榜单，除了3个缺陷：1，国产模型的language average项有略微偏低的bias；2，Gemini测评首发版无法反应光速降智情况；3，benchmark普遍很短不能反映长上下文能力

布衣 (@Hermite) 在 GLM5.2在livebench上核爆了，这是针对性刷榜了还是真的起飞了中发帖

[image] 
Livebench这个benchmark是我个人认为最准确、最符合体感而且几乎没有被刷过榜的榜单，除了3个缺陷：1，国产模型的language average项有略微偏低的bias；2，Gemini测评首发版无法反应光速降智情况；3，benchmark普遍很短不能反映长上下文能力。 
这个benchmark准确反映了当初LLaMA 4的暴死、M2.7的拉了一地、M3的不如预期、Qwen3.6 27B和gemma4 31B的惊人智能密度以及fable5的fallback问题，我个人看来几乎没有出过错误。 
这把glm5.2在榜上和4.6Opus high旗鼓相当，如果考虑国产模型在livebench上的language average的bias，在livebench上已经是对标gpt 5.4 xhigh，摸到gpt 5.5 xhigh的水平了。 
这是第一次对Livebe...