在 MA 演员-评论家网络中使用演员 softmax 概率作为评论家的输入

问题描述

我正在使用多代理 RL(演员-评论家)模型,并考虑使用代理的当前政策作为评论家的输入,以便在下一步中生成评论家值。我有两种选择,一种是按原样使用每个 actor-network 的 softmax 概率,或者从 actor-network 的 softmax 概率计算 logits,然后在评论家输入中使用 logits 而不是原始概率。

我试图与自己争论这两种方法的优缺点,并试图找到有关相关主题的一些参考资料。但到目前为止,我还没有找到任何具体的想法。也许你们中的一些人可以帮助我思考这个问题。非常感谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)