heshuiXiong 在 Qwen3-Next发布中发帖[image] Next 就是 3.5 ？—— 感觉Qwen 又夺回了国模兵器谱第一，中国创新速度不会停止！ Qwen3-Next，也就是咱们下一代模型（差不多算3.5版吧）终于来了！这次我们真敢玩儿，但其实这一年来，我们一直在偷偷搞混合架构和线性注意力的实验

heshuiXiong 在 Qwen3-Next发布中发帖

[image] 
Next 就是 3.5 ？—— 感觉Qwen 又夺回了国模兵器谱第一，中国创新速度不会停止！ 
Qwen3-Next，也就是咱们下一代模型（差不多算3.5版吧）终于来了！ 
这次我们真敢玩儿，但其实这一年来，我们一直在偷偷搞混合架构和线性注意力的实验。说真的，这套方案至少能稳稳地解决超长上下文这个老大难问题！ 
GDN加混合结构是试了无数遍才搞出来的，那个注意力门控机制，简直像白送的福利——不用大改，效果直接拉满。 
还有，MoE我们也继续深挖，把稀疏度调得更高了，既省资源又更聪明！ 
最头疼的是啥？每次想试试新架构，都得从头到尾跑一遍训练：预训练+后训练（尤其是RL），动不动就烧几周时间。但现在我们终于跑通了，所以这次连指令版和思维版都带着RL后的成果一起放出来！ 
当然啦，毕竟是第一次搞这么颠覆性的玩意儿，我们自己也拿不准哪些地方做对了、哪些踩坑了，真心需要大家帮忙...