巨大状态空间中的 DQN

我有一个问题，我有 240 个输入状态向量（每个 10 位），两个动作集，一个有四个可能的动作向量（每个 24 位），另一个有 10 位向量（一个热编码).

这些动作向量与状态无关。规则是从每组中选出最佳动作，以实现优化目标。

你认为状态空间或动作空间有多大？ DQN 在那种情况下效果好吗？

我是否也可以使用可能的动作集作为 DQN 的输入并获得可能的最佳动作？

如果有人指导我，我会很高兴！

谢谢和最好的问候，阿玛德·阿里

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）