在设计用于强化学习的网格世界时如何表示状态空间

问题描述

我想设计一个 5x5 网格世界,在这个世界中,代理可以移动以尝试使用 RL 算法。直观地说,我会用元组 (x,y) 来描述状态,即在 python 中使用列表 [x,y] 或 numpy 数组。然而,这在实现大多数算法时会变得很麻烦。例如,如果我想要一个包含条目 Q(s,a) 的 Q 值矩阵,我不能只使用 numpy 矩阵,其中行索引对应于状态,而必须使用更复杂的东西。

我的问题是枚举所有状态是否是标准的,即 1,2,...,25 而不是使用 (x,y),或者是否有另一种巧妙的方式来表示状态,使处理它们变得容易

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)