Gridworld中的终端状态是什么?

问题描述

我正在学习马尔科夫决策过程。 我不知道在哪里标记终端状态。

在4x3网格世界中,我用T标记了我认为正确(可能是错误的)的终端状态。 Pic

我看到一个指示标记的终端状态如下。

terminals=[(3,2),(3,1)]

有人可以解释它是如何工作的吗?

解决方法

在给定的网格世界中,您从“开始”(0,0)开始。然后您从该点开始走动。如果您到达“ end +1” {(3,2)},则奖励为+1,游戏结束。同样,如果到达“ end -1” {(3,1)},则奖励为-1,游戏结束。但是,在四处移动时,不能将{(1,1)}作为其无效状态。另外,如果您到达{(2,0)和(2,1)}处的任何终端状态“ T”,则游戏将以零奖励结束。