RLlib 的 PPO 算法中究竟使用了哪些损失？

问题描述

我正在努力理解 RLlib 中的 PPO 算法是如何工作的。具体来说，RLlib 文档 (https://github.com/ray-project/ray/tree/master/rllib/agents/ppo) 说有两个版本：一个基于 TRPO 的想法，另一个基于标准的 PPO 裁剪代理目标（我想使用）。但是，我找不到在哪里或如何选择要使用的实现。

此外，KL 散度似乎发生了一些变化，特别是使用 KLCoeffMixin（此处定义：https://github.com/ray-project/ray/blob/master/rllib/agents/ppo/ppo_tf_policy.py）。它似乎正在更新损失中 KL 项的权重。这对于 TRPO 版本可能有意义，但对于代理目标版本则不然。

谁能解释一下 PPO 算法在 RLlib 中的工作原理？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

rllib