腾讯混元、北大发现Scaling law「浪涌现象」，解决学习率调参难题

百度首页

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

过去十年间，基于随机梯度下降（SGD）的深度学习模型在许多领域都取得了极大的成功。与此同时各式各样的 SGD 替代品也如雨后春笋般涌现。在这些众多替代品中，Adam 及其变种最受追捧。无论是 SGD，还是 Adam，亦或是其他优化器，最核心的超参数非 Learning rate 莫属。因此如何调整好 Leanring rate 是炼丹师们从一开始就必学的技能。

从直觉上讲，影响 Learning rate 取值的重要因素是 Batch size。不知你在学习炼丹术时，是否遇到或者思考过入如下问题：

我的 Batch size 增加一倍，Learning rate 该怎么调整？

网上有说 Batch size 和 Learning rate 是线性放缩，也有说是平方根放缩，到底该按照哪个调整？

为什么我按照网上说的经验关系调整之后效果反而变差了？

针对上述问题，腾讯混元联合北京大学基于现有科研基础和实际业务需求，在进行了大量理论分析和实验验证后发布了关于 Batch size 和 Learning rate 放缩关系的调参指南：