@VrianCao 在 Kimi新论文:Attention Residuals,为"深层信息被稀释"这一困扰许久的问题,给出了可落地的工程化解决方案 中发帖
Kimi 新论文 Attention Residuals,对十年未动过的残差连接开刀,提出了新的替代方案,把残差连接里"等权求和"的部分,升级成了带学习权重的注意力聚合
他们把Transformer当年"用Attention干掉RNN"的思路,在网络深度这个维度上重做一遍,使每一层可以智能地"回望"选择性地调用前面任意层的信息,而非无脑的把所有层的输出加在一起
相较于DenseFormer、mHC、MRLA等,Attention Residuals少见地把工程问题解决到位了,其找到了理论上最自然的那个设计,且有规模化验证
结果:同样的算力能训出更好的模型,且推理几乎没有额外开销。
题外话:目前论LLM基础研究,国内基本上只有DeepSeek和Kimi两家在一直做,希望其他家可以多跟进跟进,也做一做基础研究,不如差距始终会存在呀!www