OpenAI Taxi-v3环境上的优势演员关键A2C

问题描述

enter image description here

作为强化学习的一个相当新的用户,我正在尝试在OpenAI的Taxi-v3环境中实现不同的算法。为此,我使用稳定的基线库。我可以毫无问题地使用DQN。但是,当我尝试使用该库的Advantage Actor-Critic算法时,结果令人非常失望。该算法停留在-200(平均奖励)的平均情节长度为200,这意味着它永远不会将乘客送达目的地。这有点奇怪,因为A2C是一种更复杂,更精巧的算法,应该可以提供更好的结果。我确实尝试让它运行更长的时间,以查看是否可以获得更好的结果,但不幸的是我没有。

  • 有人在这种环境下遇到过类似情况吗?
  • 在创建环境方面是否会出现问题?
  • 您有什么技巧可以解决这个问题吗?

非常感谢您的时间和帮助:)


import gym

from stable_baselines.common.policies import MlpPolicy
from stable_baselines.common.evaluation import evaluate_policy
from stable_baselines import A2C
from stable_baselines import SAC
import numpy as np
from IPython.display import clear_output
import time


# Parallel environments
env = gym.make('Taxi-v3')

model = A2C(MlpPolicy,env,verbose=1,gamma = 0.8,n_steps = 5,tensorboard_log="./a2c_taxi_tensorboard/")
model.learn(total_timesteps=250000,tb_log_name="first_run")

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)