Mike white (@Thenextsupersun)收藏侠推荐的收藏不看系列 强化学习综述 中发帖

Google的科学家 Kevin P. Murphy 编写的强化学习综述赶在520这天又更新了一版,200多页了已经。 #520# 

新版在LLM 章节进行了重大更新(例如 DPO、GRPO、思考部分)。
全篇综合性的介绍了强化学习(Reinforcement Learning, RL)的理论基础、方法、应用及其最新进展。文章从序贯决策制定的基本概念出发,详细介绍了值函数、策略梯度和基于模型的强化学习方法,并探讨了多智能体强化学习、大语言模型(LLM)与强化学习的结合等前沿领域。
[82c654dfly1i1luhr1siwj20vb17776o]