@ninijiaEasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ NoisyDQN 中发帖

从EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ DQN继续讨论: 
NoisyDQN
主要改动是在原本的Q网络中,直接对网络参数增加噪声以增加探索性,最直接的是给每个参数都添加一个高斯噪声。此处注意在每个回合中,只在最初添加一次噪声,后续都使用相同的网络进行价值估计,到下一个回合再重新添加噪声,这是为了保证同一回合内网络的价值估计是一致的,即对同一个状态同一个动作的估计是一样的,而使用 \epsilon-贪心的方式来增加探索性,即使给定相同的状态,也未必会采取相同的动作,这是因为 \epsilon-贪心具有一定的随机性。噪音网络虽然也有随机性,但在一个回合内是确定的,这称为依赖状态的探索(state-dependent exploration)
1.1 定义模型
模型中主要改动的点是给模型参数加上噪声,这里将模型参数设为均值为 \mu,方差为 \sigma 的高斯分布...