@ninijia 在 EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ DQN 中发帖最近在学习EasyRL 蘑菇书，一方面感叹书写的真的很好，非常细致，语言流畅，讲解清晰，虽然有时候前后章节内的部分内容会有重复，但瑕不掩瑜，看到书中官方仓库中的代码实现已经好长时间没有更新了，现在的gym库已经更新为了gymnasium，故附上自己看书时的一些随笔以及对官方给出的一些算法实现在gymnasium的新实现并添加了一些自己的内容，大部分代码结构都取自官方仓库,欢迎大家的交流和批评 DQN章节的内容可见这里是对DQN算法的重实现，DQN的主要思路是用深度网络来替代Q表格对状态动作的价值进行评估，从而可以解决状态空间和动作空间连续的问题

@ninijia 在 EasyRL 蘑菇书学习随记及随书实践项目代码实现 ------ DQN 中发帖

最近在学习EasyRL 蘑菇书，一方面感叹书写的真的很好，非常细致，语言流畅，讲解清晰，虽然有时候前后章节内的部分内容会有重复，但瑕不掩瑜，看到书中官方仓库中的代码实现已经好长时间没有更新了，现在的gym库已经更新为了gymnasium，故附上自己看书时的一些随笔以及对官方给出的一些算法实现在gymnasium的新实现并添加了一些自己的内容，大部分代码结构都取自官方仓库,欢迎大家的交流和批评 


DQN章节的内容可见 


这里是对DQN算法的重实现，DQN的主要思路是用深度网络来替代Q表格对状态动作的价值进行评估，从而可以解决状态空间和动作空间连续的问题。 
下面是随笔的部分
我们观察 π 的值，发现里面混杂了一些不是 π 的经验，这有没有关系？ 
这里回答中说到的过去采样使用的策略和现在的策略不是很像也没有关系，只采样了一笔经验的意思是，如果使用时序差分的方法来更新Q的话，此处Q的更...