马尔可夫决策过程中的建模动作使用限制

问题描述

我有一个包含一定数量的状态和动作的马尔可夫决策过程。我想在我的模型中加入一个动作,在任何状态下只能使用一次,并且一旦使用就不能再次使用。我如何在我的状态图中为这个动作建模?我想过有一个单独的状态并使用 -inf 来获得奖励,但这些似乎都没有奏效。谢谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)