@berryp 在 看了半天deepseek的mHC,反应过来这不就是在找 1 吗 中发帖
残差连接最先由何凯明在2015的ResNet提出,主要用于解决深层网络模型中的梯度消失/爆炸导致的训练困难问题。本次带来的论文实际上都是在这一架构基础上做出改进,下面开始上公式,深入浅出的探讨在反向传播的过程中,残差链接是如何影响我们模型训练,以及mHC解决了哪些核心问题。
1. ResNet 的求导:
前向公式:
x_{l+1} = x_l + F(x_l)
反向求导(链式法则):
想求 \frac{\partial \mathcal{L}}{\partial x_l},根据链式法则,它等于后一层梯度乘以此层的雅可比矩阵(Jacobian):
\frac{\partial \mathcal{L}}{\partial x_l} = \frac{\partial \mathcal{L}}{\partial x_{l+1}} \cdot \frac{\partial x_{l+1}}...