如何处理A2C中Atari Breakout的奖励?

问题描述

Breakout 的单个动作的奖励从 0 到超过 200 不等。在 A2C 中,它使价值损失(MSE(value_predicted,reward_return))非常不可预测,很容易支配整体_loss。

在baselines3 和github 中的许多存储库中,奖励已被限制在[0,1] 之间。并且智能体已经学会了相当聪明的策略(例如 push ball to tunnel in upper left corner 中的 this blog)。由于清除一个块或清除一行块的奖励相同,并且更多的步骤意味着更多的奖励,代理如何学习这种类型的策略?

你能帮忙吗?非常感谢。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)