取决于初始状态的最佳策略 MDPToolbox Python

问题描述

我正在尝试使用 MDP ToolBox 为我通过 Python 的 MDPToolBox生成随机 MDP 实现“平均无限”奖励标准的算法。虽然该库为所有初始状态的此类目标提供了最佳策略,但我希望找到一种现有的算法实现,该算法为从给定初始状态开始的 MDP 提供最佳策略。我正在阅读他们首次介绍包的论文,并在其中解决了初始状态为“所有状态可用”时的优化问题。我想知道是否有任何方法可以自定义此算法以解决单个初始状态(即使其更简单)。

我所做的一个假设是它解决了转换矩阵第 0 个索引的初始状态的问题,因此我可以重新分配转换矩阵以解决不同初始状态的问题,但我不确定这个解决方案是否真的有效。

有谁知道 MDPToolBox 或任何其他 Pythonic 库是否能让我解决这个问题?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)