@ninijia 在 EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ DuelingDQN 中发帖
从EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ DQN继续讨论:
DuelingDQN
DQN的一个问题是只使用了行为价值,模型仅判断在某个特定状态下采取某些行为的价值,没有考虑状态价值,而在有些状态下,可能无论采取什么行为,最终得到的结果(奖励)都差不多,比如在一个躲避车辆的赛车游戏中,如果当前路面上没有其他车辆,那在这个状态下无论赛车向哪个方向移动的结果都影响不大。而在有车辆的情况下,不同移动方向的价值就会不同。在原来的DQN中,虽然学习状态下的不同行为的价值隐含了对状态的价值判断,但如果将对状态的价值判断和状态下的行为价值判断显式的分离开并分别建模,相当于引入了归纳偏置,可以让模型更好的学习状态的价值和状态下的动作价值。
但仅引入归纳偏置是不够的,因为原始的Q网络的价值等于状态价值和状态下动作价值的和,如果模型只关注二者和的大小,即如果状态价值减小就使得动作价...