优先序列体验回放:了解它是如何工作的

问题描述

我对优先序列体验重放实施 (PSER) 方法的理解如下:

代理将经验添加到转换中,我们计算其 TD-loss。然后我们计算该体验的优先级并反向传播,这样做:

pn−1 = max{pn · ρ,pn−1}
pn−2 = max{pn · ρ 2,pn−2}

等等。

目前在标准 PER 实现中,您抽取一批经验并计算出每个经验的 td-loss,然后用这些各自的损失替换优先级。我的问题是,这不会覆盖我们在第一部分所做的事情(在哪里传播优先级?)

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)