在 MA 演员-评论家网络中使用演员 softmax 概率作为评论家的输入

问题描述

我正在使用多代理 RL（演员-评论家）模型，并考虑使用代理的当前政策作为评论家的输入，以便在下一步中生成评论家值。我有两种选择，一种是按原样使用每个 actor-network 的 softmax 概率，或者从 actor-network 的 softmax 概率计算 logits，然后在评论家输入中使用 logits 而不是原始概率。

我试图与自己争论这两种方法的优缺点，并试图找到有关相关主题的一些参考资料。但到目前为止，我还没有找到任何具体的想法。也许你们中的一些人可以帮助我思考这个问题。非常感谢！

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

deep-learning multi-agent probability reinforcement-learning