@ninijia 在 EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ DDQN 中发帖从EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ DQN继续讨论： DDQN算法定义DQN的一个问题在于，DQN中的Q网络很容易对动作得到的真实的Q值进行高估，如图 https://datawhalechina.github.io/easy-rl/img/ch7/7.1.png（图片大于 4 MB）原因在于，每次从Q网络中选择动作时都是选择Q值最大的动作，而Q网络对Q值的估计是有偏差的，选择Q值最大的动作更有可能选到估计的偏差为比真实的Q值高的动作

@ninijia 在 EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ DDQN 中发帖

从EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ DQN继续讨论： 
DDQN
算法定义
DQN的一个问题在于，DQN中的Q网络很容易对动作得到的真实的Q值进行高估，如图 
 https://datawhalechina.github.io/easy-rl/img/ch7/7.1.png（图片大于 4 MB） 
原因在于，每次从Q网络中选择动作时都是选择Q值最大的动作，而Q网络对Q值的估计是有偏差的，选择Q值最大的动作更有可能选到估计的偏差为比真实的Q值高的动作。假设有5个学生，他们的真实能力都是80分。现在你作为老师，对他们进行5次不完美的评估（就像Q网络的估计），评估结果会有一些随机误差： 
学生A：评估为 80 + 2 = 82分 
学生B：评估为 80 - 3 = 77分 
学生C：评估为 80 + 5 = 85分 
学生D：评估为 80 - 1 = 79分 
学...