@VrianCao 在 Kimi K2 Thinking Livebench 官方复测:开源第二 中发帖
从Kimi K2 Thinking 在 Livebench上的成绩很一般继续讨论:
[IMG_1067]
开源第一是 DeepSeek V3.2 Exp Thinking
三个想法:
Livebench 真是个草台班子啊,用第三方 API Provider 做 benchmark
DeepSeek V3 的架构是真的优秀,月之暗面的 Muon 也是真的优秀
这俩分差几乎可以忽略不计了,因为现在 Livebench的题库比较拉,尤其是数学成绩,数学那一栏基本不用看了,在 Livebench 体系下毛毛糙糙算个并列第一吧