问题描述
作为强化学习的一个相当新的用户,我正在尝试在OpenAI的Taxi-v3环境中实现不同的算法。为此,我使用稳定的基线库。我可以毫无问题地使用DQN。但是,当我尝试使用该库的Advantage Actor-Critic算法时,结果令人非常失望。该算法停留在-200(平均奖励)的平均情节长度为200,这意味着它永远不会将乘客送达目的地。这有点奇怪,因为A2C是一种更复杂,更精巧的算法,应该可以提供更好的结果。我确实尝试让它运行更长的时间,以查看是否可以获得更好的结果,但不幸的是我没有。
非常感谢您的时间和帮助:)
import gym
from stable_baselines.common.policies import MlpPolicy
from stable_baselines.common.evaluation import evaluate_policy
from stable_baselines import A2C
from stable_baselines import SAC
import numpy as np
from IPython.display import clear_output
import time
# Parallel environments
env = gym.make('Taxi-v3')
model = A2C(MlpPolicy,env,verbose=1,gamma = 0.8,n_steps = 5,tensorboard_log="./a2c_taxi_tensorboard/")
model.learn(total_timesteps=250000,tb_log_name="first_run")
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)