在以下Multiagent DDPG实施中,我的代理商是否共享共同的批评意见?

问题描述

我想为我的所有特工建立一个共同的批评家,因此我将其定义为以下内容,但由于批评家在每次迭代培训时都会有所变化,因此我不确定所有的特工是否仍共享相同的批评家网络,否则他们最终是否会共享在这个过程中有不同的批评家吗? 另外,如果他们最终将拥有不同的批评者,那么我该如何实施批评者,以使即使在每次迭代训练之后,所有代理也共享相同的批评者权重?

STORE    ID       Category  Sum
Store 1           1 Tools         4050
Store 2           2 Food          4051
Store 3           3 Tools         4052
Store 4           4 Mess          4053
Store 5           5 Random        4054
Store 6           6 Mal           4055
Store 1           7 Night          200
Store 2           8 Releif        4057
Store 3           9 Test           154
Store 4          10 Tools         4059
Store 5          11 Food          4060
Store 6          12 Tools        54665
Store 1          13 Mess           454
Store 2          14 Random          45
Store 3          15 Mal           4064
Store 4          16 Night         4065
Store 5          17 Releif          45
Store 6          18 Test          1451
Store 1          19 Tools         4068
Store 2          20 Food          4069
Store 3          21 Tools           15
Store 4          22 Mess          4071
Store 5          23 Random        4072
Store 6          24 Mal           4073
Store 1          25 Night         4074
Store 2          26 Releif        4075
Store 3          27 Test          4076
Store 4          28 Tools           45
Store 5          29 Food          4078
Store 6          30 Tools           45
Store 1          31 Mess          4080
Store 2          32 Random          42
Store 3          33 Mal            523
Store 4          34 Night          453
Store 5          35 Releif           4
Store 6          36 Test           532
Store 1          37 Tools            5
Store 2          38 Food          4087
Store 3          39 Tools         2425
Store 4          40 Mess             2
Store 5          41 Random          45
Store 6          42 Mal              3

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)