如何告诉tf_agent Epiode已终止？

我正在学习强化学习，并且正在tf-agent中使用DQN教程。我将环境更改为OpenAI Gym Mountain Cart问题，发现培训代理真的很困难。我认为的可能原因是在缓冲区中，数据是逐集存储的，这意味着下一个情节的开始与上一个情节保持一致，代理可能会认为终端状态之后的状态是初始状态。状态。

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）