@fengchris 在 Qwen3-30B-A3B-2507和Qwen3-235B-A22B-2507更新百万上下文配置文件中发帖为了支持超长上下文处理（最多 1 百万个令牌），我们集成了两项关键技术：双块注意力 (DCA)：一种长度外推方法，将长序列分割成可管理的小块，同时保持全局连贯性

@fengchris 在 Qwen3-30B-A3B-2507和Qwen3-235B-A22B-2507更新百万上下文配置文件中发帖

为了支持 超长上下文处理（最多 1 百万个令牌），我们集成了两项关键技术： 

双块注意力 (DCA)：一种长度外推方法，将长序列分割成可管理的小块，同时保持全局连贯性。
MInference：一种稀疏注意力机制，通过聚焦于关键令牌交互来减少计算开销。

这些创新共同显著提高了超过 256K 令牌序列的 生成质量和推理效率。对于接近 1M 令牌的序列，系统相比标准注意力实现可达到高达 3 倍的速度提升。 
长上下文性能
我们在RULER基准测试的1M版本上测试了该模型。 




模型名称
Acc avg
4k
8k
16k
32k
64k
96k
128k
192k
256k
384k
512k
640k
768k
896k
1000k




Qwen3-235B-A22B (思考)
82.9
97.3
95.9
95.3
88.7
91.7
91.5
87.9
85.4
78.4
7...