ffep 在新的编程模型也许即将出现中发帖Deepseek 凭借在长上下文中的突破性创新赢得了 ACL 2025 最佳论文奖，基于此的模型可能很快就会出现简单来说，他们提出的原生稀疏注意力（NSA）机制，通过算法与硬件的协同优化，直接把长文本处理速度提升了11倍

ffep 在新的编程模型也许即将出现中发帖

Deepseek 凭借在长上下文中的突破性创新赢得了 ACL 2025 最佳论文奖，基于此的模型可能很快就会出现 
简单来说，他们提出的原生稀疏注意力（NSA）机制，通过算法与硬件的协同优化，直接把长文本处理速度提升了11倍。更厉害的是，性能不仅没降反而还超越了传统的全注意力模型。 
一作 袁境阳在会上发表演讲，透露这项技术可以 把上下文长度扩展到1百万tokens，将被应用到下一个前沿模型中。 
结合论文发表于DeepSeek-R1推出之后，实验设置中也提到使用了DeepSeek-R1的蒸馏数据来微调了新的模型。 
大家纷纷猜测，这项技术将被用于下一代DeepSeek-V4以及DeepSeek-R2。