问题描述
我有一些离线经验:(s,a,r,s') 是通过启发式生成的。我想在训练 SAC 代理时使用这些。使用示例 saving_experiences 来准备我的数据在与 SAC 一起使用时会出现错误。这是一个 colab,其中暴露了 pendulum-v0 环境的问题。 我从错误消息中了解到,除了作为离线数据生成的体验之外,SAC 还期待一些“权重”(以及一些时间“t”?!)。 我可以只使用 SAC 的离线体验 (s,s') 吗?
谢谢。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)