LINUX DO Channel

Moonie 在神经网络与大语言模型初步 - 第一章神经网络 4 中发帖
1.4 神经网络的训练
上一节讲了如何评价神经网络的效果，这一节我们讲神经网络效果的提升，即训练。 
1.4.1 训练目标与损失函数
训练的目的是提高神经网络的效果，换言之，是提高神经网络在某个评估指标下的表现。 
通常，我们使用的方式是梯度下降法，通过求出神经网络的参数在该评估指标下的梯度（即求导），得到参数空间下，能够提升指标的参数变动方向（即向量），然后让参数往这个方向让移动一小步，如此往复。（梯度下降法的更详细内容会在 1.4.2 讲） 
容易想到，评估指标并非都是可以连续可导的，比如准确率 \mathrm{Accuracy} = \frac{\text{分类正确的样本数}}{\text{总样本数}} 就是一个典型的离散变量。 
因此，我们引入损失函数（Loss Function） \mathcal{L} ，衡量模型预测值与真实值之间的差距，且对参数可微。可以认为，损失函数是一种连...