ffep 在 新的编程模型也许即将出现 中发帖
Deepseek 凭借在长上下文中的突破性创新赢得了 ACL 2025 最佳论文奖,基于此的模型可能很快就会出现
简单来说,他们提出的原生稀疏注意力(NSA)机制,通过算法与硬件的协同优化,直接把长文本处理速度提升了11倍。更厉害的是,性能不仅没降反而还超越了传统的全注意力模型。
一作 袁境阳在会上发表演讲,透露这项技术可以 把上下文长度扩展到1百万tokens,将被应用到下一个前沿模型中。
结合论文发表于DeepSeek-R1推出之后,实验设置中也提到使用了DeepSeek-R1的蒸馏数据来微调了新的模型。
大家纷纷猜测,这项技术将被用于下一代DeepSeek-V4以及DeepSeek-R2。