在 OpenAI Gym 中定义 MDP 的最简单方法?

问题描述

我正在寻找基于示例的答案,无论是答案中直接的代码还是教程的链接,但不只是纯文本答案。

我很好奇——如何在 OpenAI Gym 中定义任意马尔可夫决策过程以实现强化学习解决方案?我在我的角色中经常遇到的问题是旅行推销员、车辆路线安排和库存优化。通常,我使用遗传算法和贝叶斯优化等优化技术来寻找接近最优的解决方案。但是,在这个问题中,我希望看到一种实用/可行的 RL 方法解决此类问题。我的理解是 OpenAI Gym 是为 RL 定义代理/环境的最简单工具。 (如果这不是真的,请使用您首选的替代方案以相同的详细程度回答这个问题。)

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)