MCTS中的快速行动价值估算

问题描述

我正在阅读RAVE for MCTS。我目前正在使用MCTS开发国际象棋AI,并且正在尝试各种技术。

我对RAVE的理解是,它使用了播出期间探索的节点。因此,例如,如果我从移动m开始播放,而不是仅更新状态操作对(或其开始播放的节点),我们还将存储在模拟过程中播放的节点。

我不明白的是我们从这里去哪里?我们是否必须搜索整个树以查找是否已在其他位置创建播放节点?这对我来说有点混乱。 我正在阅读的论文是:Here

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)