问题描述
我正在学习强化学习,并且正在tf-agent中使用DQN教程。我将环境更改为OpenAI Gym Mountain Cart问题,发现培训代理真的很困难。我认为的可能原因是在缓冲区中,数据是逐集存储的,这意味着下一个情节的开始与上一个情节保持一致,代理可能会认为终端状态之后的状态是初始状态。状态。
我的代码在这里,可以看看吗? https://colab.research.google.com/drive/1h8oEujl61qJxj9ukBseyj4QyGLy49het?usp=sharing 预先谢谢你!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)