在设计用于强化学习的网格世界时如何表示状态空间

问题描述

我想设计一个 5x5 网格世界，在这个世界中，代理可以移动以尝试使用 RL 算法。直观地说，我会用元组 (x,y) 来描述状态，即在 python 中使用列表 [x,y] 或 numpy 数组。然而，这在实现大多数算法时会变得很麻烦。例如，如果我想要一个包含条目 Q(s,a) 的 Q 值矩阵，我不能只使用 numpy 矩阵，其中行索引对应于状态，而必须使用更复杂的东西。

我的问题是枚举所有状态是否是标准的，即 1,2,...,25 而不是使用 (x,y)，或者是否有另一种巧妙的方式来表示状态，使处理它们变得容易

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

gridworld python reinforcement-learning