寻找一个用于操作大规模马尔可夫决策过程 (MDP) 的库

我有一个问题，我想将其表示为大规模马尔可夫决策过程。我希望有一个可以预测状态转换和奖励的模型，但我想推断价值函数和策略函数。值函数和“Q”函数的近似推断以及通过线性模型或神经网络会做得很好。

一个关键要求：我将扩大我的状态空间，使其无法在内存中表示。我需要通过表征状态的特征值来表示状态。

是否有库可以帮助我在这种大规模设置中推断价值和策略功能？我遇到的大多数马尔可夫决策过程库似乎都面向非常小规模的问题和精确推理。

如果没有交钥匙解决方案，有人对如何构建这样的系统有任何建议吗？

您可以使用 TensorFlow 开发人员支持的 TF-Agents，并且已经预先实现了用于 Q 值函数逼近的 DQN 代理。您需要做的主要事情是为您的特定环境写下代码，该代码与代理一起构成您的 MDP。