如何处理A2C中Atari Breakout的奖励？

问题描述

Breakout 的单个动作的奖励从 0 到超过 200 不等。在 A2C 中，它使价值损失（MSE(value_predicted,reward_return)）非常不可预测，很容易支配整体_loss。

在baselines3 和github 中的许多存储库中，奖励已被限制在[0,1] 之间。并且智能体已经学会了相当聪明的策略（例如 push ball to tunnel in upper left corner 中的 this blog）。由于清除一个块或清除一行块的奖励相同，并且更多的步骤意味着更多的奖励，代理如何学习这种类型的策略？

你能帮忙吗？非常感谢。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

breakout reinforcement-learning