问题描述
我正在学习强化学习课程,很多时候,学习价值函数权重的策略参数基本上归结为使用随机梯度下降 (SGD)。代理被表示为具有状态序列 S_t、动作 A_t 和在序列的时间 t 获得奖励 R_t。
我对 SGD 的一般理解,例如在神经网络上使用训练数据集应用时,我们假设小批量中的数据是 iid,这是有道理的,因为在某种程度上我们“近似”了期望使用假设从独立但完全相似的分布中绘制的点上的梯度平均值。那么为什么我们在 RL 中使用 SGD,同时随着时间的推移而增加呢?这是由于 p(S_t | S_{t-1}) 分布的条件独立性的隐含假设吗?
感谢您澄清这一点。 胺
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)