@ninijiaEasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ DDQN 中发帖

从EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ DQN继续讨论: 
DDQN
算法定义
DQN的一个问题在于,DQN中的Q网络很容易对动作得到的真实的Q值进行高估,如图
https://datawhalechina.github.io/easy-rl/img/ch7/7.1.png(图片大于 4 MB)
原因在于,每次从Q网络中选择动作时都是选择Q值最大的动作,而Q网络对Q值的估计是有偏差的,选择Q值最大的动作更有可能选到估计的偏差为比真实的Q值高的动作。假设有5个学生,他们的真实能力都是80分。现在你作为老师,对他们进行5次不完美的评估(就像Q网络的估计),评估结果会有一些随机误差:
学生A:评估为 80 + 2 = 82分
学生B:评估为 80 - 3 = 77分
学生C:评估为 80 + 5 = 85分
学生D:评估为 80 - 1 = 79分
学...