巨大状态空间中的 DQN

问题描述

我有一个问题,我有 240 个输入状态向量(每个 10 位),两个动作集,一个有四个可能的动作向量(每个 24 位),另一个有 10 位向量(一个热编码).

这些动作向量与状态无关。规则是从每组中选出最佳动作,以实现优化目标。

你认为状态空间或动作空间有多大? DQN 在那种情况下效果好吗?

我是否也可以使用可能的动作集作为 DQN 的输入并获得可能的最佳动作?

如果有人指导我,我会很高兴!

谢谢和最好的问候, 阿玛德·阿里

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)