@YougLin 在 deepseek发布NSA 中发帖
[image]
10分钟前。
介绍 NSA:一种硬件对齐和原生可训练的稀疏注意力机制,用于超快速的长上下文训练和推理! NSA 的核心组成部分: • 动态层次稀疏策略 • 粗粒度令牌压缩 • 精细化的令牌选择 !
通过针对现代硬件的优化设计,NSA 加快了推理速度,同时降低了预训练成本——而不影响性能。它在一般基准、长上下文任务和基于指令的推理上与全注意力模型相匹配或超越。
有关更多细节,请查看我们的论文: https://arxiv.org/abs/2502.11089