问题描述
我已经在 stable_baselines 中进行了试验,效果不错,并且一直想在 stable_baselines3 上进行尝试。
我正在使用 A2C 模型来训练库存环境。使用的自定义环境目前与 stable_baselines 一起工作。我在训练过程中看到了不稳定性,并希望迁移到 stable_baselines3 以防万一。
0
100
自定义环境如下。调试时,错误会在环境中的第一个“步骤”之后立即弹出。可能是因为退货问题。我确实将状态的返回类型更改为 np.array 并且问题没有解决。
def train_A2C(env_train,model_name,timesteps = 50000,i=0 ):
start = time.time()
# policy_kwargs = dict(net_arch=[128,128])
policy_kwargs=dict(optimizer_class=RMSpropTFLike)
model = A2C(MlpPolicy,env_train,verbose = 1,tensorboard_log='./tensorboard/tensorboard_A2C/',learning_rate =0.0001,vf_coef = 0.05,ent_coef = 0.005,policy_kwargs=policy_kwargs)
model.learn(total_timesteps = timesteps,tb_log_name = f"A2C_{i}")
end = time.time()
model.save(f'{config.TRAINED_MODEL_DIR}/{model_name}')
print(f'Training Time A2C : ',(end - start) /60,' minutes')
return model
我得到的错误是在模型过程中。学习过程:
发生异常:AttributeError 'list' 对象没有属性 'get'
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)