问题描述
我对优先序列体验重放实施 (PSER) 方法的理解如下:
代理将经验添加到转换中,我们计算其 TD-loss。然后我们计算该体验的优先级并反向传播,这样做:
pn−1 = max{pn · ρ,pn−1}
pn−2 = max{pn · ρ 2,pn−2}
等等。
目前在标准 PER 实现中,您抽取一批经验并计算出每个经验的 td-loss,然后用这些各自的损失替换优先级。我的问题是,这不会覆盖我们在第一部分所做的事情(在哪里传播优先级?)
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)