Moonie 在 神经网络与大语言模型初步 - 第一章 神经网络 6 中发帖
1.5 学习率
1.5.1 学习率的影响
学习率 \eta 是训练中最重要的超参数之一(超参数是指人为设定的参数)。我们仍以山谷找谷底为例:
想象一个人站在一片山地上,周围浓雾弥漫,看不清山的地形,而他的目标是走到山的谷底。唯一能做的,通过脚底感知脚下这片地的坡度,然后朝着最陡的下坡方向走一小步。重复这个过程,就可以一步步走到某个低洼处。
梯度下降法就是这个思路:
“山地"就是损失函数 \mathcal{L}(\theta) 在参数空间中的"地形”
"脚底下的坡度"就是梯度 \nabla_{\theta} \mathcal{L}
"朝最陡的下坡方向走一小步"就是参数更新
(当然通过上一节的学习,我们知道,这个例子里的高度,其实就是损失函数的大小)
学习率太大:每一步都移动很多,可能直接跨过谷底,在两侧来回震荡,甚至越走越高(发散)
学习率太小:每一步都移动很少,收敛慢,训...