我在处理非马尔可夫奖励函数吗?

问题描述

我正在研究一个 RL 问题,即代理实现采取“a”等动作的奖励的时间 在像“t”这样的时间步中是随机的。事实上,没有立即奖励,所有奖励都是随机延迟的。 为了更清楚,让我们假设代理在时间步“t”中采取行动“a”。代理在时间步 t+k(其中 k>1)中获得奖励。我想知道这种奖励函数是否被归类为非马尔可夫奖励函数在这种环境下哪种 RL 方法效果更好(近似/找到最佳策略)?

PS:它在某种程度上与稀疏奖励问题不同,因为在我的问题中,所采取的每一个动作都有一个非零奖励。但是,代理不会立即收到任何奖励。事实上,一旦智能体采取了行动,他就无法控制何时会收到与该行动相关的奖励。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)