我在处理非马尔可夫奖励函数吗？

问题描述

我正在研究一个 RL 问题，即代理实现采取“a”等动作的奖励的时间在像“t”这样的时间步中是随机的。事实上，没有立即奖励，所有奖励都是随机延迟的。为了更清楚，让我们假设代理在时间步“t”中采取行动“a”。代理在时间步 t+k（其中 k>1）中获得奖励。我想知道这种奖励函数是否被归类为非马尔可夫奖励函数，在这种环境下哪种 RL 方法效果更好（近似/找到最佳策略）？

PS：它在某种程度上与稀疏奖励问题不同，因为在我的问题中，所采取的每一个动作都有一个非零奖励。但是，代理不会立即收到任何奖励。事实上，一旦智能体采取了行动，他就无法控制何时会收到与该行动相关的奖励。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

deep-learning q-learning reinforcement-learning