如何告诉代理人,运动空间中的某些动作目前在体育馆中不可用?

问题描述

  1. 最简单的情况是,我将操作空间定义为spaces.discrete(3),但是有时0不可用,代理只能从1和2中采样。有时2不可用,或者1和2不可用。我如何告诉代理某些选择不可用?

(注意:通过unavailable,我的意思是该动作是不可能的,不会发生,并且其结果是不确定的;而不是错误的选择会导致负面的回报。)

  1. 实际上,我有Multidiscrete个动作空间,有些动作有时不可用(就像问题1一样)。甚至更糟的是,从这些空间中选择的动作必须满足某些条件,例如,discrete 2 - discrete 2 Multidiscrete动作空间必须满足以下功能f(a1,a2) <= 1,其中a1是从第一个discrete 2空间,而a2从第二个discrete 2空间采样。但是这里的f一个复杂的函数,它不像+那样简单,而是与当前状态相关的函数。如果是这种情况,我怎么能告诉代理当前某些选择不可用?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)