@JackBlue 在 Qwen团队即将发布Qwen3-Next新架构,Transformers 已经合并支持。 中发帖
[image]
https://xcancel.com/huybery/status/1965426710998122546#m
[image]
https://xcancel.com/JustinLin610/status/1965420583400898651#m
[image]
概述
Qwen3-Next 系列代表我们下一代基础模型,专为极端上下文长度和大规模参数效率优化。该系列引入了一套架构创新,旨在在最小化计算成本的同时最大化性能:
混合注意力:用 Gated DeltaNet 和 Gated Attention 的组合替代标准注意力,实现高效的上下文建模。
高稀疏 MoE:在 MoE 层实现极低的激活率,达到 1:50——大幅降低每个 token 的 FLOPs,同时保持模型容量。
多标记预测(MTP):提升预训练模型性能,并加速推理。
其他优化:包括零中...