@VrianCao 在 怎么感觉大家的Kimi K2和我的不一样❓ 中发帖
怎么L站大家都在说不好用
我怎么感觉很好用啊❓
业内的几个朋友这几天都很激动,在蹲技术报告
这次K2创新很多,提出了全新的稀疏性缩放定律,并证明了Muon对于超大语料训练优化的可行性,这次的博客展示出来的Loss-Tokens曲线优秀到不像话
现在据我所知已经有团队把今年2月份发布的Moun重新捡起来研究了,同时也在等稀疏性缩放定律引导下的“fewer heads, more experts”报告,一旦被审阅证明可行性,未来几个月内的MoE应该都是这个路子了
使用体验上来看,OpenRouter上的几个Provider都还不太行,量化缩水严重,官方API真的好用,但慢是真的慢
Agentic能力优秀,编码很不错,有的放矢,准确,创意性写作很棒