MCTS中的快速行动价值估算

我正在阅读RAVE for MCTS。我目前正在使用MCTS开发国际象棋AI，并且正在尝试各种技术。

我对RAVE的理解是，它使用了播出期间探索的节点。因此，例如，如果我从移动m开始播放，而不是仅更新状态操作对（或其开始播放的节点），我们还将存储在模拟过程中播放的节点。

我不明白的是我们从这里去哪里？我们是否必须搜索整个树以查找是否已在其他位置创建播放节点？这对我来说有点混乱。我正在阅读的论文是：Here

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）