强化学习:序列中样本的 SGD 使用和独立性

问题描述

我正在学习强化学习课程,很多时候,学习价值函数权重的策略参数基本上归结为使用随机梯度下降 (SGD)。代理被表示为具有状态序列 S_t、动作 A_t 和在序列的时间 t 获得奖励 R_t。

我对 SGD 的一般理解,例如在神经网络上使用训练数据集应用时,我们假设小批量中的数据是 iid,这是有道理的,因为在某种程度上我们“近似”了期望使用假设从独立但完全相似的分布中绘制的点上的梯度平均值。那么为什么我们在 RL 中使用 SGD,同时随着时间的推移而增加呢?这是由于 p(S_t | S_{t-1}) 分布的条件独立性的隐含假设吗?

感谢您澄清这一点。 胺

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...