了解强化学习中的奖励功能atari breakout

问题描述

我正在尝试了解 Deepmind 实现的 Breakout atari 中的奖励功能。我对奖励有点困惑。它们使用四帧表示每个状态,并且根据每个动作的奖励将在四帧后收到。我的问题是,如果球被卡住了怎么办,它在那里获得了很多奖励,如何确定获得奖励的相同动作是导致更多奖励的原因?

我正在谈论的案例

enter image description here

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)