我需要训练RL代理,该代理必须控制一些开关。假设我们有n个开关,它们可以打开(1)或关闭(0)。我的代理人必须在每个步骤中确定要撕裂和折弯的哪一个,所以我希望动作如下所示:[1,1,.... 1]-由n个二进制元素组成的向量。
我该如何训练代理人? DQN旁边的东西可以将给定的动作空间转换为可能的2 ^ n个动作谨慎的空间吗?
如果您要这样做,DQN还可以支持矢量化操作空间。有关已实现此功能的框架,请参见TF-Agents。