如何在没有 Gym 的情况下创建强化学习代理?

问题描述

我想创建一个 RL 代理,它可以找到您可以对图像进行的最佳转换并应用它。我正在经历 Image Augmentation Is All You Need: Regularizing Deep Reinforcement Learning from Pixels,但我很难理解 code

所以我的想法是我可以完全删除健身房,因为我的问题不需要我的环境具有持续状态。我只会在我的模型上一次输入一张图像。但是我无法理解如何提供所需的大量信息,例如如何定义动作空间或如何给予奖励。

示例:他们使用这一行来定义直接从环境中获取信息的 action_space。我不知道这个变量中的数据是什么类型或形状。

cfg.agent.params.action_shape = self.env.action_space.shape

在网上搜索示例几乎每个人似乎都使用健身房,无论是作为定制环境还是预制环境?因此,我的问题是否可以在不使用健身房的情况下创建 RL 代理?如果是我该怎么做?任何有关如何操作的示例代码

另外,也许问题是我缺乏知识或我错误地处理了这个问题,因此我们将不胜感激任何建议或材料。

TLDR:我的项目卡住了,我请求一些帮助,如果这不是问的地方,我很抱歉。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...