@berryp 在看了半天deepseek的mHC，反应过来这不就是在找 1 吗中发帖残差连接最先由何凯明在2015的ResNet提出，主要用于解决深层网络模型中的梯度消失/爆炸导致的训练困难问题

@berryp 在看了半天deepseek的mHC，反应过来这不就是在找 1 吗中发帖

残差连接最先由何凯明在2015的ResNet提出，主要用于解决深层网络模型中的梯度消失/爆炸导致的训练困难问题。本次带来的论文实际上都是在这一架构基础上做出改进，下面开始上公式，深入浅出的探讨在反向传播的过程中，残差链接是如何影响我们模型训练，以及mHC解决了哪些核心问题。 
1. ResNet 的求导：
前向公式： 
x_{l+1} = x_l + F(x_l) 
反向求导（链式法则）： 
想求 \frac{\partial \mathcal{L}}{\partial x_l}，根据链式法则，它等于后一层梯度乘以此层的雅可比矩阵（Jacobian）： 
\frac{\partial \mathcal{L}}{\partial x_l} = \frac{\partial \mathcal{L}}{\partial x_{l+1}} \cdot \frac{\partial x_{l+1}}...