为我的QLearning代理编写良好的奖励功能

问题描述

我还是ML的新手，最近我学习了Q-Learning并对其进行了手动编码（不使用Keras或TensorFlow之类的库），而我面临的问题是知道如何编写良好的奖励函数对于我的经纪人，我首先编写了以下简单的奖励函数：

从X，Y移至X1，Y1时：返回（距离（从X，Y到目标）-距离（从X1，Y1到目标））

这意味着只要它向目标移动，它就会获得积极的回报，并且在空的2D平原上可以正常工作。

但是当我添加障碍物时，该功能无济于事，特工沿着最短的路径永远将目标卡在障碍物中，我增加了留在原地的惩罚，它再次被困在墙上，但是这次来回往复，因为惩罚+奖励的总和为0，并且已经获得了积极的奖励，因此这是一条有利的道路。然后，我增加了两次通过同一方块的惩罚，但是，我仍然觉得这太令人费解了，必须有一种更简单的方法来做到这一点

起始位置（绿色是代理，红色是目标）

陷入阻塞的最短直接路径

我了解到奖励后，我对奖励有很多理解/错了，从一开始就将奖励提高到了2k，而不是在[-1，1]范围内，并且没有明确区分何时使用消极奖励与积极奖励。

我的状态与动作的内存数组由n个行（其中n =行*列）和5个动作（上，右，下，左，留在原地）组成的n个状态组成。

因此，知道我的经纪人应该找到到目标的最短可用路径（未阻止），我的奖励功能应该是什么样？为什么呢？同样按照我从中学到的算法，它们并没有真正指定Epsilon，Gamma和LearningRate的值，因此我将它们分别设置为0.2、0.85和0.75。

如果您要通过代码发送奖励函数，则我的代码在python中。

PS：我在StackOverflow上和上下进行了搜索，发现所有都是参考文献和文章，所有这些都解释了奖励函数应该做什么，但没有详细说明如何做到这一点，或者将查询变成奖励功能。

这是我在Github上的代码文件（无GUI）：https://github.com/EjHam98/LearningMachineLearning/blob/master/QLearning.py

解决方法

在您的环境中，状态操作空间很大。仅考虑10个障碍，总状态将大于49x48x47c10，大于10e13，这里甚至没有采取任何行动，也没有考虑其他可能的障碍数量。

因此，最好将Deep Q-learning与功能强大的CNN功能近似器一起使用。

观察-代表迷宫（或图像）的2d网格
座席状态-当前观察值的堆栈以及之前的某些帧（2，3）。
奖励结构
- -1
- 获得目标状态的ve奖励
- -遇到障碍时获得奖励

在简单的环境（例如OpenAI体育馆控制环境）中更好地使用Q学习。 Here's用于gym控制环境的q学习的示例实现。

python q-learning