MCTS中的快速行动价值估算反向传播问题

我正在为多人游戏开发AI。我对应该如何实施RAVE有一些疑问。

模拟完成后，我们是否将树向后传播，如果玩家1获胜，我们将从开始模拟的节点向后传播到根节点，并更新所有RAVE表作为节点中的胜利。仅针对该玩家在模拟中执行的移动？并更新其他玩家作为损失。

或

设置BETA时也是如此。它说，在研究论文中，某些游戏的k = 1000大致是最佳的。有一般规则吗？

谢谢，感谢您的帮助。：）

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）