@HCPTangHY 在 Kimi团队发布Attention Residuals:通过深度注意力机制优化大语言模型架构 中发帖
月之暗面Kimi团队近日发表研究报告,推出了一项名为Attention Residuals(简称AttnRes)的创新技术,旨在解决现代大语言模型在加深过程中出现的层级贡献稀释问题。该研究通过引入跨层级的注意力机制,替换了传统的固定权重残差连接,使模型各层能够根据输入内容主动选择并聚合前序层级的表征信息。
[image]
[image]
目前,Kimi团队已经在其拥有48B参数的大模型上实测了这项技术。结果显示,应用了新方案的AI在回答数学题、写代码以及中文理解等各项任务中,表现都比传统设计更出色。