dalvqw【起来重睡学算法 Day7】大模型算法全栈理论篇第三章:循环神经网络 中发帖

今日无事 勾栏听曲 L站水文 😀 
23 天入门大模型算法
原项目如下:


在线阅读地址:LLM 前世今生
第二节 LSTM 与 GRU
在了解了 RNN 的基本架构及其固有的缺陷后,本节将探讨两种经典的 RNN 改进方案——长短期记忆网络 (LSTM) 与门控循环单元 (GRU),并剖析它们是如何通过精巧的结构设计来克服长距离依赖这一挑战的。
一、LSTM 与门控机制
常规 RNN 的问题是它内部状态的更新方式是“粗暴”的。每一步的新信息都会与旧信息(隐藏状态)无差别地混合,并通过权重矩阵 W 进行变换。这种强制性的矩阵乘法,无论信息重要与否,都会在反向传播中形成梯度累乘,导致梯度信号的衰减或爆炸。LSTM 的设计哲学是赋予网络自行决定信息取舍的能力。它不再强制性地混合所有信息,而是引入了 “门控机制”(Gating Mechanism),让模型在训练过程中学会有选择地让信息通...