如何在稳定的基线中获得 action_propability() 3

问题描述

我刚刚开始使用稳定基线 3 自学强化学习。我的长期目标是训练智能体玩特定的回合制棋盘游戏。不过,目前我对新东西感到不知所措。

我已经实现了一个健身房环境,我可以用它来手动玩我的游戏或让它选择随机动作。

目前,我一直在尝试让模型根据观察结果向我提供动作。我的环境的操作空间是一个 discreteSpace(256)。我创建了环境为 model = PPO('MlpPolicy',env,verbose=1) 的模型。当我稍后调用 model.predict(observation) 时,我确实得到了一个看起来像一个动作的数字。当重复运行时,我会得到不同的数字,我认为这是在未经训练的模型上预期的。

不幸的是,在我的游戏中,大多数行为在大多数州都是非法的,我想过滤它们并选择最好的合法行为。或者简单地转储所有操作的输出结果,以了解正在发生的事情。

在浏览其他人的代码时,我看到了对 model.action_probability(observation) 的引用。不幸的是,据我所知,方法不是稳定基线 3 的一部分。从稳定基线 2 迁移到 v3 的指南只提到它没有实施 [1]。

你能告诉我如何继续吗?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)