软演员批评家如何确切地避免最大化偏差？

问题描述

在软演员评论家中，最小q值的使用方式类似于double-q学习，以避免最大化偏差。即使paper提到应单独训练两个q表，但从本文的伪代码和多种实现方式（例如与implementation链接的openai的基线documentation）看来，通过相同的经验更新两个q表。还会造成最大化偏差吗？

此外，我还使用了其他人的code（和this environment，它们复制了Richard Sutton的RL书的ch。6图6.5），以证明如果一个人一次仅使用q训练一张q表（网络）通过另一个q表获得的值，一旦建立右臂使其成为更好的选择，结果将更加稳定。（它在大约三十集后保持在零，而最初的算法甚至达到了八十集。）

可以看到here的振荡版本，可以看到here的改编版本（使用第一个存储库第5章中的DQN代码）。

对于我在示例（rl-book）中使用的实现，其背后的原因是因为v是使用相同的经验进行更新的，因为它们不是独立的试验，因此无法使q函数免受最大化偏差的影响。但是在稳定的基础上，我对两个q函数使用了不同的经验，将max-q选择和q值更新解耦。

似乎基线的实现也使用了相同的经验来更新bot q函数（self._sess.run使用相同的feed dict来馈送所有提取），但我可能是错的。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

q-learning reinforcement-learning

软演员批评家如何确切地避免最大化偏差？

问题描述

解决方法

相关问答