LINUX DO Channel

Moonie 在神经网络与大语言模型初步 - 第一章神经网络 6 中发帖
1.5 学习率
1.5.1 学习率的影响
学习率 \eta 是训练中最重要的超参数之一（超参数是指人为设定的参数）。我们仍以山谷找谷底为例： 

想象一个人站在一片山地上，周围浓雾弥漫，看不清山的地形，而他的目标是走到山的谷底。唯一能做的，通过脚底感知脚下这片地的坡度，然后朝着最陡的下坡方向走一小步。重复这个过程，就可以一步步走到某个低洼处。 
梯度下降法就是这个思路： 

“山地"就是损失函数 \mathcal{L}(\theta) 在参数空间中的"地形”
"脚底下的坡度"就是梯度 \nabla_{\theta} \mathcal{L}
"朝最陡的下坡方向走一小步"就是参数更新


（当然通过上一节的学习，我们知道，这个例子里的高度，其实就是损失函数的大小） 

学习率太大：每一步都移动很多，可能直接跨过谷底，在两侧来回震荡，甚至越走越高（发散）
学习率太小：每一步都移动很少，收敛慢，训...