为什么我的 alpha-beta 搜索结果取决于访问节点的顺序？

问题描述

我用 Python 编写了一个 n x n 井字游戏，并添加了一个极小极大搜索，它似乎可以正常工作。但是，当我添加 alpha-beta 修剪时，搜索结果将取决于访问节点的顺序。

在下面显示的minimax函数中，如果我在调用random.shuffle(node._children)之后添加行node.create_children()，则极大极小搜索的结果变得不可预测（我正在通过运行计算机进行测试）与通过 GUI 进行的计算机游戏对比，然后diff处理生成的游戏文件）。但是，如果我删除两个if alpha >= beta: break语句，那么节点shuffling对搜索结果没有影响。

我最初发现这个bug是因为我试图对子节点进行排序以提高修剪的效率。只要这两个 if 语句保持原位，以任何方式更改节点的顺序（反转、排序、混洗等）都会更改搜索结果。这使我得出结论，那些 if 语句以某种方式导致搜索变得依赖于访问节点的顺序。

函数大致基于this pseudocode。主要区别在于我的 minimax 函数仅用于设置每个节点的值，不返回值。

下面是函数定义。完整代码为 here（向上滚动查看类定义）。 minimax 函数由 Tree.get_next_board (here) 调用，每当引擎移动时，它都会从 GUI 调用。我希望最终减少代码中的大量状态，但我希望我的算法中存在更明显的问题。

def minimax(node: Node,stats: Stats,alpha=core.NEG_INF,beta=core.INF,depth=8):
    stats.visited += 1

    if node.is_leaf():
        return

    if depth == 0:
        node.set_val(eval_board(node.get_board()))
        return

    stats.created += node.create_children()

    if node.is_max_node():
        new_val = core.NEG_INF
        for child in node.get_children():
            minimax(child,stats,alpha,beta,depth - 1)
            new_val = max(new_val,child.get_val())
            alpha = max(alpha,new_val)
            if alpha >= beta:
                break
    else:
        new_val = core.INF
        for child in node.get_children():
            minimax(child,depth - 1)
            new_val = min(new_val,child.get_val())
            beta = min(beta,new_val)
            if alpha >= beta:
                break

    node.set_val(new_val)

有没有人看到一个明显的原因，即添加 alpha-beta 修剪会使我的搜索取决于访问节点的顺序？如果没有，任何人都可以提出此类问题的常见原因吗？如果问题可能隐藏在我的代码的状态中，我欢迎有关如何在仍然使用树来缓存电路板的同时减少状态的建议。如果所有其他方法都失败了，我认为我最好的选择是将 minimax 重新实现为没有树或其他状态的纯函数，然后看看是否能解决问题。

如果有人想运行代码，他们可以下载 tic_tac_toe 模块并运行 python3 -m tic_tac_toe（已知可在 Linux 上使用 Python 3.8.6）。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

algorithm game-theory minimax python tic-tac-toe