@fengchris 在 Qwen3-30B-A3B-2507和Qwen3-235B-A22B-2507更新百万上下文配置文件 中发帖
为了支持 超长上下文处理(最多 1 百万个令牌),我们集成了两项关键技术:
双块注意力 (DCA):一种长度外推方法,将长序列分割成可管理的小块,同时保持全局连贯性。
MInference:一种稀疏注意力机制,通过聚焦于关键令牌交互来减少计算开销。
这些创新共同显著提高了超过 256K 令牌序列的 生成质量和推理效率。对于接近 1M 令牌的序列,系统相比标准注意力实现可达到高达 3 倍的速度提升。
长上下文性能
我们在RULER基准测试的1M版本上测试了该模型。
模型名称
Acc avg
4k
8k
16k
32k
64k
96k
128k
192k
256k
384k
512k
640k
768k
896k
1000k
Qwen3-235B-A22B (思考)
82.9
97.3
95.9
95.3
88.7
91.7
91.5
87.9
85.4
78.4
7...