健身房定制环境和PPO:训练有素的代理人总是采取同样的行动,有什么建议?

问题描述

我已经建立了一个健身房定制env和与虚拟随机测试剂是:到目前为止好,会发生什么情况正确地按照我的游戏规则

简而言之,我目前的空间是:

action_space = Multidiscrete([6,60,1122])
observation_space = Box(low=0,high=1122,shape=(1182,),dtype=np.float32)

请注意,最初我想要以下观察空间:

observation_space = Dict({
    'list1' : Box(low=0,high=6,shape=(1,1122),dtype=np.uint32),'list2' : Box(low=0,60),dtype=np.int32)
    })

...但由于没有稳定的基线可以处理快译通空间,我只好来连接两个列表,并使用一箱同时服用最高尺度。

然后我试图从稳定的基线3.我训练它上百万步(约1000万)训练PPO代理并测试它的环境:训练有素的代理人始终以相同的(傻)动作并没有任何反应。我重复与A2C剂和同样的事情发生。

我是新来的机器学习,所以我现在有点失落,需要一些方向前进:

  1. 问题是否来自我的观察和/或动作空间?我需要正常化?
  2. 是培训方式太短的空间大小?
  3. 该问题是否由超参数来?

因为我是一个相当长的时间后卡住使得环境...感谢任何意见,欢迎!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)