优先序列体验回放：了解它是如何工作的

我对优先序列体验重放实施 (PSER) 方法的理解如下：

代理将经验添加到转换中，我们计算其 TD-loss。然后我们计算该体验的优先级并反向传播，这样做：

pn−1 = max{pn · ρ,pn−1}
pn−2 = max{pn · ρ 2,pn−2}

等等。

目前在标准 PER 实现中，您抽取一批经验并计算出每个经验的 td-loss，然后用这些各自的损失替换优先级。我的问题是，这不会覆盖我们在第一部分所做的事情（在哪里传播优先级？）

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）