@VrianCaoKimi K2 Thinking Livebench 官方复测:开源第二 中发帖

从Kimi K2 Thinking 在 Livebench上的成绩很一般继续讨论: 
[IMG_1067]


开源第一是 DeepSeek V3.2 Exp Thinking
三个想法:

Livebench 真是个草台班子啊,用第三方 API Provider 做 benchmark
DeepSeek V3 的架构是真的优秀,月之暗面的 Muon 也是真的优秀
这俩分差几乎可以忽略不计了,因为现在 Livebench的题库比较拉,尤其是数学成绩,数学那一栏基本不用看了,在 Livebench 体系下毛毛糙糙算个并列第一吧