马尔可夫决策过程中的建模动作使用限制

我有一个包含一定数量的状态和动作的马尔可夫决策过程。我想在我的模型中加入一个动作，在任何状态下只能使用一次，并且一旦使用就不能再次使用。我如何在我的状态图中为这个动作建模？我想过有一个单独的状态并使用 -inf 来获得奖励，但这些似乎都没有奏效。谢谢！

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）