@ninijiaEasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ PPO 中发帖

从EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ A2C继续讨论: 
重要性采样要解决的是同策略的算法在每次采样后都需要更新策略的问题,如果我们希望能有更高的效率,一定希望能够进行一个批次的采样后再更新策略,而不是采样一步就更新策略再用新策略再采样,批量采样后一次更新可以节省大量更新策略花费的时间。
问题在于采样一个批次后更新策略时随着策略的更新,新策略已经和采样时使用的旧策略偏移了,该如何修正这种偏移呢,就可以使用重要性权重,将原始的优势乘以重要性权重得到新策略下的优势。乘以重要性权重这一操作从直观上看类似将新的概率分布和旧概率分布相除得到差异值,乘以这种差异就得到了满足新分布下的优势值,但这一表述并不严谨,具体的证明可以参考书中的内容。重要性采样
PPO相对重要性采样更进一步解决了分布之间的差异问题,使用这种估计的方法用旧策略采样得到的结果估计新策略存在的问题在于...