问题描述
我已经建立了一个健身房定制env和与虚拟随机测试剂是:到目前为止好,会发生什么情况正确地按照我的游戏规则
简而言之,我目前的空间是:
action_space = Multidiscrete([6,60,1122])
observation_space = Box(low=0,high=1122,shape=(1182,),dtype=np.float32)
请注意,最初我想要以下观察空间:
observation_space = Dict({
'list1' : Box(low=0,high=6,shape=(1,1122),dtype=np.uint32),'list2' : Box(low=0,60),dtype=np.int32)
})
...但由于没有稳定的基线可以处理快译通空间,我只好来连接两个列表,并使用一箱同时服用最高尺度。
然后我试图从稳定的基线3.我训练它上百万步(约1000万)训练PPO代理并测试它的环境:训练有素的代理人始终以相同的(傻)动作并没有任何反应。我重复与A2C剂和同样的事情发生。
我是新来的机器学习,所以我现在有点失落,需要一些方向前进:
- 问题是否来自我的观察和/或动作空间?我需要正常化?
- 是培训方式太短的空间大小?
- 该问题是否由超参数来?
因为我是一个相当长的时间后卡住使得环境...感谢任何意见,欢迎!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)