yongru cheng 在 LearningRate和BatchSize 中发帖
博客原文链接
Batch Size 和 Learning Rate 的缩放
[!note] 看了苏剑林老师的当Batch Size增大时,学习率该如何随之变化?,做一个简单记录。
一个几乎每个做深度学习的朋友都会遇到的困惑:当我的计算资源增加了,比如从一块 GPU 换到了四块,很自然地,我会想通过增大 Batch Size 来加速训练。但紧接着的问题就是,Learning Rate应该如何随之调整?
最理想的情况,我们当然是希望算力翻倍,时间减半,这是一种朴素的线性思维。但稍有实践经验的朋友都知道,事情远没有这么简单。如果你只是单纯地增大 Batch Size 而不做任何其他调整,模型的性能很可能急剧下降,甚至完全无法收敛。在众多超参数中,学习率是那个最需要与 Batch Size 联动调整的关键变量。
这篇文章,我想和大家一起梳理一下关于 Batch Size (B) 和学...