Mike white (@Thenextsupersun) 在收藏侠推荐的收藏不看系列强化学习综述中发帖Google的科学家 Kevin P. Murphy 编写的强化学习综述赶在520这天又更新了一版，200多页了已经

Mike white (@Thenextsupersun) 在收藏侠推荐的收藏不看系列强化学习综述中发帖

Google的科学家 Kevin P. Murphy 编写的强化学习综述赶在520这天又更新了一版，200多页了已经。 #520# 

新版在LLM 章节进行了重大更新（例如 DPO、GRPO、思考部分）。 
全篇综合性的介绍了强化学习（Reinforcement Learning, RL）的理论基础、方法、应用及其最新进展。文章从序贯决策制定的基本概念出发，详细介绍了值函数、策略梯度和基于模型的强化学习方法，并探讨了多智能体强化学习、大语言模型（LLM）与强化学习的结合等前沿领域。 
 [82c654dfly1i1luhr1siwj20vb17776o]