Moonie神经网络与大语言模型初步 - 第一章 神经网络 4 中发帖

1.4 神经网络的训练
上一节讲了如何评价神经网络的效果,这一节我们讲神经网络效果的提升,即训练。
1.4.1 训练目标与损失函数
训练的目的是提高神经网络的效果,换言之,是提高神经网络在某个评估指标下的表现。
通常,我们使用的方式是梯度下降法,通过求出神经网络的参数在该评估指标下的梯度(即求导),得到参数空间下,能够提升指标的参数变动方向(即向量),然后让参数往这个方向让移动一小步,如此往复。(梯度下降法的更详细内容会在 1.4.2 讲)
容易想到,评估指标并非都是可以连续可导的,比如准确率 \mathrm{Accuracy} = \frac{\text{分类正确的样本数}}{\text{总样本数}} 就是一个典型的离散变量。
因此,我们引入损失函数(Loss Function) \mathcal{L} ,衡量模型预测值与真实值之间的差距,且对参数可微。可以认为,损失函数是一种连...