在包含n个二进制动作的动作空间的情况下，如何训练RL代理？

我需要训练RL代理，该代理必须控制一些开关。假设我们有n个开关，它们可以打开（1）或关闭（0）。我的代理人必须在每个步骤中确定要撕裂和折弯的哪一个，所以我希望动作如下所示：[1,1，.... 1]-由n个二进制元素组成的向量。

我该如何训练代理人？ DQN旁边的东西可以将给定的动作空间转换为可能的2 ^ n个动作谨慎的空间吗？

如果您要这样做，DQN还可以支持矢量化操作空间。有关已实现此功能的框架，请参见TF-Agents。