Alpha-beta 修剪在完全实施时会做出更糟糕的决定

问题描述

我正在使用极小极大算法编写一个基本的国际象棋 AI。我实施了 alpha-beta 修剪,这似乎工作正常。代码如下:

def move(self,board):
    moves = {}

    for move in board.legal_moves:
        board.push(move)
        moves[move] = self.evaluate_move(board,1,float("-inf"),float("inf"))
        board.pop()

    best_moves = []
    for key in moves.keys():
        if moves[key] == max(moves.values()):
            best_moves.append(key)
    
    chosen_move = random.choice(best_moves)
    return chosen_move

def evaluate_move(self,board,depth,alpha,beta):
    if depth % 2: # if depth is odd ie. minimizing player
        extremepoints = float("inf")
    else:
        extremepoints = float("-inf")

    if depth < self.depth_limit and (not board.is_game_over()):
        for move in board.legal_moves:
                board.push(move)
                if depth % 2: # if depth is odd ie. minimizing player
                    points = self.evaluate_move(board,depth+1,beta)
                    extremepoints = min(extremepoints,points)
                    beta = min(beta,points)
                    if alpha >= beta:
                        board.pop()
                        break
                else:
                    points = self.evaluate_move(board,beta)
                    extremepoints = max(extremepoints,points)
                    alpha = max(alpha,points)
                    if beta <= alpha:
                        board.pop()
                        break
                board.pop()
    else:
        return self.evaluate_position(board)

    return extremepoints

然而,在观看 this video 时,我意识到我可能会失去潜在的表现。在视频中的那个时候,alpha 被设置在树的最顶部,它被赋予所有其他第一级移动。我的实现没有这样做,而是为每个第一级移动赋予 alpha 值 -inf。我试图通过执行以下操作来解决此问题:

def move(self,board):
    alpha = float("-inf")
    beta = float("inf")
    moves = {}

    for move in board.legal_moves:
        board.push(move)
        moves[move] = self.evaluate_move(board,beta) # Change here
        alpha = max(alpha,moves[move])
        board.pop()

    best_moves = []
    for key in moves.keys():
        if moves[key] == max(moves.values()):
            best_moves.append(key)
    
    chosen_move = random.choice(best_moves)
    return chosen_move

问题是,这导致了更糟糕的 AI。它更快,但每次都输给没有这个“修复”的人工智能。但是,在浏览 Stack Overflow 时,我找到了指向 this implementation链接,这似乎与我的做法相同。

所以,我的问题是:我是否已经在最大程度上进行了 alpha-beta 修剪并且不需要任何更改,或者,我实施修复的方式是否有问题?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)