@blacksein 在 kimi k2.6 benchmark分析（换成排名）中发帖官方的benchmark很全面，但是有点看不清楚，我换成排名的方式感觉更清楚点

@blacksein 在 kimi k2.6 benchmark分析（换成排名）中发帖

官方的benchmark很全面，但是有点看不清楚，我换成排名的方式感觉更清楚点。 
生成表格的代码是AI写的。。想了想还是截图吧 
官方原始的benchmark： 

总结
 [image] 
可以看出kimi k2.6不是总的第一哦，所以说k2.6只有跑分是不对的，因为跑分不是第一。 
（opus4.6拉了是因为vision严重拖了后腿 佬可以看下面的图） 
其中有两个项目只有k2.6和k2.5。 
各位佬可以看下面。 
Agentic
 [image] 
这个表现很亮眼 但是注意了 这里其中两个榜只有k2.6和2.5 😂 
也可以看到opus没掉出过前三 
Coding
 [image] 
coding只有SWE-Bench Pro第一了，这个是长任务，此前其他模型还没针对性优化长任务，比如opus 4.7也是重点优化了这个。但是也说明kimi k2.6针对长任务能更好工作（注意glm...