policy-gradient-descent

policy-gradient-descent

强化学习的政策梯度会反向传播哪些损失或奖励？

我用Python编写了一个小脚本，以通过策略梯度来解决...

政策梯度网络不想学习环境

<pre><code>import tensorflow as tf i...

如何解决政策梯度中的零概率问题？

最近，我尝试将朴素的策略渐变方法应用于我的问题。...

PPO2强化学习“灾难性的遗忘”？

我在自建任务中实施PPO2强化学习，并且总是遇到代理...

Pytorch 中的策略梯度损失

版本 1 <pre><code>y = episode_a.argm...

DDPG 不收敛于一个简单的控制问题

我正在尝试使用 DDPG 解决控制问题。这个问题很简单...

PPO2：动作采样、Gumbel 分布和可推导性

我正在尝试了解 <code>PPO2</code> 算法...

如何在pytorch中钳制nueron的输出

我使用简单的 nn 线性模型 (20,64,64,2) 进行深度强...

ValueError：没有为策略梯度中的任何变量提供梯度

我一直在尝试在强化学习中实现策略梯度算法。但是，...

cartpole 的 actor-critic 算法的平均奖励没有改进

我一直在尝试为健身房中的 Cartpole 环境实现演员评...

DDPG Actor 更新Pytorch 实现问题

这是来自 <a href="https://github.com/Mori...