OpenAI Taxi-v3环境上的优势演员关键A2C

问题描述

enter image description here

作为强化学习的一个相当新的用户，我正在尝试在OpenAI的Taxi-v3环境中实现不同的算法。为此，我使用稳定的基线库。我可以毫无问题地使用DQN。但是，当我尝试使用该库的Advantage Actor-Critic算法时，结果令人非常失望。该算法停留在-200（平均奖励）的平均情节长度为200，这意味着它永远不会将乘客送达目的地。这有点奇怪，因为A2C是一种更复杂，更精巧的算法，应该可以提供更好的结果。我确实尝试让它运行更长的时间，以查看是否可以获得更好的结果，但不幸的是我没有。

有人在这种环境下遇到过类似情况吗？
在创建环境方面是否会出现问题？
您有什么技巧可以解决这个问题吗？

非常感谢您的时间和帮助：）


import gym

from stable_baselines.common.policies import MlpPolicy
from stable_baselines.common.evaluation import evaluate_policy
from stable_baselines import A2C
from stable_baselines import SAC
import numpy as np
from IPython.display import clear_output
import time


# Parallel environments
env = gym.make('Taxi-v3')

model = A2C(MlpPolicy,env,verbose=1,gamma = 0.8,n_steps = 5,tensorboard_log="./a2c_taxi_tensorboard/")
model.learn(total_timesteps=250000,tb_log_name="first_run")

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

python reinforcement-learning