@VrianCao 在 Kimi新论文：Attention Residuals，为"深层信息被稀释"这一困扰许久的问题，给出了可落地的工程化解决方案中发帖Kimi 新论文 Attention Residuals，对十年未动过的残差连接开刀，提出了新的替代方案，把残差连接里"等权求和"的部分，升级成了带学习权重的注意力聚合他们把Transformer当年"用Attention干掉RNN"的思路，在网络深度这个维度上重做一遍，使每一层可以智能地"回望"选择性地调用前面任意层的信息，而非无脑的把所有层的输出加在一起相较于DenseFormer、mHC、MRLA等，Attention Residuals少见地把工程问题解决到位了，其找到了理论上最自然的那个设计，且有规模化验证结果：同样的算力能训出更好的模型，且推理几乎没有额外开销

@VrianCao 在 Kimi新论文：Attention Residuals，为"深层信息被稀释"这一困扰许久的问题，给出了可落地的工程化解决方案中发帖

Kimi 新论文 Attention Residuals，对十年未动过的残差连接开刀，提出了新的替代方案，把残差连接里"等权求和"的部分，升级成了带学习权重的注意力聚合 
他们把Transformer当年"用Attention干掉RNN"的思路，在网络深度这个维度上重做一遍，使每一层可以智能地"回望"选择性地调用前面任意层的信息，而非无脑的把所有层的输出加在一起 
相较于DenseFormer、mHC、MRLA等，Attention Residuals少见地把工程问题解决到位了，其找到了理论上最自然的那个设计，且有规模化验证 
结果：同样的算力能训出更好的模型，且推理几乎没有额外开销。 

题外话：目前论LLM基础研究，国内基本上只有DeepSeek和Kimi两家在一直做，希望其他家可以多跟进跟进，也做一做基础研究，不如差距始终会存在呀！www