作业君 (@homeworkkun) 在 Kimi K2上了,浅浅跑个LiveBench/Reasoning吧 中发帖
😁年前在KIMI充的50块还没用完,目前余额37,试一试看看,要是花销不高我就测完
[595a799b92f6f21f80c7b965a34f7c82]
现在能自己测的LiveBench应该是0402版本吧,但是我这好像更新不了,还是1125版本题库,将就着看看吧(
▶
Livebench 241125版本(官网截图)
目前结果
Reasoning平均:38分,zebra_puzzle:12分,web_of_lies_v2:84分,spatial:18分
😓看了一眼答案,原来是不知道为什么输出token数量被限制在1024以内了,写答案写一半就截断了
[image]