问题描述
我在 gym
中创建了我的自定义环境,这是一个迷宫。我使用带有 DQN
的 BoltzmannQPolicy
模型。
它可以很好地训练以下变量:
- 代理位置
- 到终点的距离
- 端点位置
- 它可以移动到哪些方向
所以我不给它图片或任何东西。如果我在相同的环境(相同的迷宫,不改变墙壁的位置)中训练和测试它,它可以轻松解决。但是如果我在没有训练的情况下将它引入一个完全不同的环境(迷宫),那么它不知道该怎么做。不知道是我的代码有问题,还是DQN
只是为了解决同样的环境。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)