变色龙 (@bianselong)杨植麟跟梁文锋,论文撞车 中发帖

Kimi、DeepSeek又撞新成果,创始人都亲自上阵。 
智东西2月19日报道,在DeepSeek公布最新稀疏注意力框架NSA论文的5小时后,“大模型六小虎”之一、月之暗面Kimi团队公布了一篇类似主题的MoBA论文,并声称在长文本上下文中实现了高效、动态的注意力选择,提升了大模型在处理超长序列任务时的效率和性能,同时保持了与全注意力机制相当的效果。
[图片]
▲DeepSeek与月之暗面相隔5小时官宣论文(图源:X)
和NSA类似,MoBA也是一个稀疏注意力框架,旨在提高长文本处理效率。MoBA上下文长度最大可扩展到10M,而NSA最长是64k(刚刚,DeepSeek发新成果!梁文锋亲自参与,实习生挑大梁,显著加速AI训练推理)。值得关注的是,DeepSeek创始人梁文锋是NSA论文共同作者之一,MoBA论文的共同作者中也出现了月之暗面联合创始人杨植麟、周昕宇的名字。
月之暗...