dharma 在 DeepSeek 提出新的注意力机制:原生稀疏注意力 (NSA),创始人亲自提交论文 中发帖
DeepSeek 提出新的注意力机制:原生稀疏注意力 (NSA),创始人亲自提交论文
来源: OSCHINA
编辑: 局
2025-02-19 10:46:00
0
阅读《2024 中国开源开发者报告》赢大奖,扫码申请享特权[图片]
2 月 18 日,DeepSeek 官方发文公布了一篇新的论文,论文提出了一种新的注意力机制「NSA」。
[图片]
论文地址:https://arxiv.org/pdf/2502.11089v1
据 DeepSeek 介绍,**「原生稀疏注意力 (Native Sparse Attention, NSA) 」**是一个用于超快长上下文训练和推断的本地可训练的稀疏注意力机制,并且还具有与硬件对齐的特点。
[图片]
NSA 核心组件包括:
动态分层稀疏策略
粗粒度 token 压缩
细粒度 token 选择
研究通过...