一步多动作，强化学习

问题描述

我正在尝试编写一个自定义的 openAI Gym 环境，其中代理在每个步骤中采取 2 个动作，其中一个是离散动作，另一个是连续动作。我正在使用 Ray RLLib 并使用 SAC 算法，因为它支持离散和连续动作空间。我的问题是有人知道如何让代理每一步采取两个动作，一个是连续的，另一个是离散的？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

openai-gym ray reinforcement-learning rllib