具有实际环境而不是python类环境的Tensorflow代理

问题描述

根据Wikipedia关于强化学习

两个要素使强化学习变得强大:使用样本优化性能和使用函数逼近来处理大型环境。归功于这两个关键组成部分,强化学习可以在以下情况下的大型环境中使用:

  • 已知环境模型,但是没有解析解决方案。
  • 仅给出环境的仿真模型(基于仿真的优化主题)。
  • 收集有关环境的信息的唯一方法是与之互动。

就我而言,环境属于第三种选择,唯一的方法是与之互动以获取经验。为此,我有一个Flask Restful API,环境调用这些API点以符合RL框架的主要功能Reset和Step。

由于它不是要传递给TF Environment Wrapper的python类,因此在我的解决方案中还可以使用TF Agents的其他方法。也许是一个环境类,它将与消息传递总线进行通信以查看API是否被击中?

要进一步说明,如果我根据TF Environment文档创建了python类,并且具有用于检查API是否已被命中的Step and Reset的内部实现,那这是一个明智的解决方案吗?

更新1:我仍然无法弄清这一切,因为它特别复杂,无法从外部环境重置环境,但是目前我正在研究broker类,作为python类和flask之间的一种简单消息传递技术。 API

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)