问题描述
我正在努力理解 RLlib 中的 PPO 算法是如何工作的。具体来说,RLlib 文档 (https://github.com/ray-project/ray/tree/master/rllib/agents/ppo) 说有两个版本:一个基于 TRPO 的想法,另一个基于标准的 PPO 裁剪代理目标(我想使用)。但是,我找不到在哪里或如何选择要使用的实现。
此外,KL 散度似乎发生了一些变化,特别是使用 KLCoeffMixin
(此处定义:https://github.com/ray-project/ray/blob/master/rllib/agents/ppo/ppo_tf_policy.py)。它似乎正在更新损失中 KL 项的权重。这对于 TRPO 版本可能有意义,但对于代理目标版本则不然。
谁能解释一下 PPO 算法在 RLlib 中的工作原理?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)