强化学习

强化学习

强化学习模仿学习于robot[通俗易懂]

从Google的alphago以绝对优势接连战胜人类围棋中的佼...

强化学习系列七--DDPG

DDPG（deep deterministic policy gradient），深度...

强化学习系列八--PPO

回顾上文中的DDPG，DDPG是源于DQN，它使用神经网络替...

强化学习系列一--基础概念

最近了解了强化学习方面的知识，准备进行下整理和总...

强化学习系列三-gym介绍和实例

gym是openAI下的一个开发和对比强化学习算法的工具包...

强化学习系列二--算法概念

上文我们已经理解强化学习的基础概念以及其目标是找...

强化学习系列四-PolicyGradient实例

上文我们介绍了使用简单的Random Guessing Algorith...

强化学习—— Twin delay deep deterministic policy gradient(TD3算法)

所以动作价值的估计函数学习的目标是累计回报与TD e...

强化学习导论

和是强化学习两个最重要最显著的。强化学习既表示一...

强化学习多臂赌博机

《强化学习》第二版多臂赌博机知识点整理