@JackBlue 在 Qwen团队即将发布Qwen3-Next新架构，Transformers 已经合并支持

@JackBlue 在 Qwen团队即将发布Qwen3-Next新架构，Transformers 已经合并支持。中发帖

[image] 
https://xcancel.com/huybery/status/1965426710998122546#m 
 [image] 
https://xcancel.com/JustinLin610/status/1965420583400898651#m 
 [image] 

概述
Qwen3-Next 系列代表我们下一代基础模型，专为极端上下文长度和大规模参数效率优化。该系列引入了一套架构创新，旨在在最小化计算成本的同时最大化性能： 

混合注意力：用 Gated DeltaNet 和 Gated Attention 的组合替代标准注意力，实现高效的上下文建模。
高稀疏 MoE：在 MoE 层实现极低的激活率，达到 1:50——大幅降低每个 token 的 FLOPs，同时保持模型容量。
多标记预测（MTP）：提升预训练模型性能，并加速推理。
其他优化：包括零中...