heshuiXiong 在 Qwen3-Next发布 中发帖
[image]
Next 就是 3.5 ?—— 感觉Qwen 又夺回了国模兵器谱第一,中国创新速度不会停止!
Qwen3-Next,也就是咱们下一代模型(差不多算3.5版吧)终于来了!
这次我们真敢玩儿,但其实这一年来,我们一直在偷偷搞混合架构和线性注意力的实验。说真的,这套方案至少能稳稳地解决超长上下文这个老大难问题!
GDN加混合结构是试了无数遍才搞出来的,那个注意力门控机制,简直像白送的福利——不用大改,效果直接拉满。
还有,MoE我们也继续深挖,把稀疏度调得更高了,既省资源又更聪明!
最头疼的是啥?每次想试试新架构,都得从头到尾跑一遍训练:预训练+后训练(尤其是RL),动不动就烧几周时间。但现在我们终于跑通了,所以这次连指令版和思维版都带着RL后的成果一起放出来!
当然啦,毕竟是第一次搞这么颠覆性的玩意儿,我们自己也拿不准哪些地方做对了、哪些踩坑了,真心需要大家帮忙...