软演员批评家如何确切地避免最大化偏差?

问题描述

在软演员评论家中,最小q值的使用方式类似于double-q学习,以避免最大化偏差。即使paper提到应单独训练两个q表,但从本文的伪代码和多种实现方式(例如与implementation链接的openai的基线documentation)看来,通过相同的经验更新两个q表。还会造成最大化偏差吗?

此外,我还使用了其他人的code(和this environment,它们复制了Richard Sutton的RL书的ch。6图6.5),以证明如果一个人一次仅使用q训练一张q表(网络)通过另一个q表获得的值,一旦建立右臂使其成为更好的选择,结果将更加稳定。 (它在大约三十集后保持在零,而最初的算法甚至达到了八十集。)

可以看到here的振荡版本,可以看到here的改编版本(使用第一个存储库第5章中的DQN代码)。

对于我在示例(rl-book)中使用的实现,其背后的原因是因为v是使用相同的经验进行更新的,因为它们不是独立的试验,因此无法使q函数免受最大化偏差的影响。但是在稳定的基础上,我对两个q函数使用了不同的经验,将max-q选择和q值更新解耦。

似乎基线的实现也使用了相同的经验来更新bot q函数(self._sess.run使用相同的feed dict来馈送所有提取),但我可能是错的。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...