@ninijia 在 EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ A2C 中发帖从EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ DQN继续讨论： A2C模型演员-评论员算法是一种结合策略梯度和时序差分学习的强化学习方法，其中，演员是指策略函数，即学习一个策略以得到尽可能高的回报

@ninijia 在 EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ A2C 中发帖

从EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ DQN继续讨论： 
A2C模型
演员-评论员算法是一种结合策略梯度和时序差分学习的强化学习方法，其中，演员是指策略函数 ，即学习一个策略以得到尽可能高的回报。评论员是指价值函数，对当前策略的值函数进行估计，即评估演员的好坏。借助于价值函数，演员-评论员算法可以进行单步参数更新，不需要等到回合结束才进行更新。在演员-评论员算法里面，最知名的算法就是异步优势演员-评论员算法。如果去掉异步，则为优势演员-评论员（advantage actor-critic，A2C）算法。A2C算法又被译作优势演员-评论员算法。如果加了异步，变成异步优势演员-评论员算法。优势函数的估计仍然可以使用时序差分的方法。 
注意A2C是一个同策略的算法，因此不能像在DQN中那样构建一个回放池，随后从回放池中拿出一些transition样本来进行训练，必须...