@ninijia 在 EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ NoisyDQN 中发帖从EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ DQN继续讨论： NoisyDQN主要改动是在原本的Q网络中，直接对网络参数增加噪声以增加探索性，最直接的是给每个参数都添加一个高斯噪声

@ninijia 在 EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ NoisyDQN 中发帖

从EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ DQN继续讨论： 
NoisyDQN
主要改动是在原本的Q网络中，直接对网络参数增加噪声以增加探索性，最直接的是给每个参数都添加一个高斯噪声。此处注意在每个回合中，只在最初添加一次噪声，后续都使用相同的网络进行价值估计，到下一个回合再重新添加噪声，这是为了保证同一回合内网络的价值估计是一致的，即对同一个状态同一个动作的估计是一样的，而使用 \epsilon-贪心的方式来增加探索性，即使给定相同的状态，也未必会采取相同的动作，这是因为 \epsilon-贪心具有一定的随机性。噪音网络虽然也有随机性，但在一个回合内是确定的，这称为依赖状态的探索（state-dependent exploration） 
1.1 定义模型
模型中主要改动的点是给模型参数加上噪声，这里将模型参数设为均值为 \mu，方差为 \sigma 的高斯分布...