想要:多代理系统,用于最大化所有代理的整体奖励

问题描述

也许你可以帮我解决以下问题。

系统模型:

我们假设有两个代理 A 和 B,以及它们对应的动作 a_a 和 a_b。 动作空间定义为 {1,2,3}。数字对应于奖励矩阵的行和列。 奖励矩阵定义如下:

特工 A 的奖励矩阵: [11 0 0,0 0 0,0 0 -10]

特工 B 的奖励矩阵: [11 0 0,0 0 100]

现在,代理 A 选择列,代理 B 选择行。两者都从相应的矩阵中观察到奖励。

优化目标

我们希望最大化整体奖励,即代理 A 和 B 的奖励总和。

现在有什么问题?

按照本教程(ray/centralized_critic.py at master · ray-project/ray · GitHub),我们通过使用集中式评论家多代理系统解决了上述目标。

不幸的是,该系统仅优化了代理的个人奖励,如下所示:

click here for the reward plot

是否有适合我们优化目标的多智能体系统示例,即最大化整体奖励?

在我们的模型中,这将导致总体奖励为 90 而不是 22。

非常感谢。

最好的, 亚伦

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)