问题描述
- 最简单的情况是,我将操作空间定义为
spaces.discrete(3)
,但是有时0不可用,代理只能从1和2中采样。有时2不可用,或者1和2不可用。我如何告诉代理某些选择不可用?
(注意:通过unavailable
,我的意思是该动作是不可能的,不会发生,并且其结果是不确定的;而不是错误的选择会导致负面的回报。)
- 实际上,我有
Multidiscrete
个动作空间,有些动作有时不可用(就像问题1一样)。甚至更糟的是,从这些空间中选择的动作必须满足某些条件,例如,discrete 2 - discrete 2
Multidiscrete
动作空间必须满足以下功能:f(a1,a2) <= 1
,其中a1
是从第一个discrete 2
空间,而a2
从第二个discrete 2
空间采样。但是这里的f
是一个复杂的函数,它不像+
那样简单,而是与当前状态相关的函数。如果是这种情况,我怎么能告诉代理当前某些选择不可用?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)