MCTS中的快速行动价值估算反向传播问题

问题描述

我正在为多人游戏开发AI。我对应该如何实施RAVE有一些疑问。

  1. 模拟完成后,我们是否将树向后传播,如果玩家1获胜,我们将从开始模拟的节点向后传播到根节点,并更新所有RAVE表作为节点中的胜利。仅针对该玩家在模拟中执行的移动?并更新其他玩家作为损失。

  1. 我们是否只是将树向后传播到根并更新包含模拟中执行的移动的所有玩家RAVE表,而不管哪个玩家在模拟中执行了移动?

设置BETA时也是如此。它说,在研究论文中,某些游戏的k = 1000大致是最佳的。有一般规则吗?

谢谢,感谢您的帮助。 :)

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)