强化学习
-
试错和延迟收益是强化学习两个最重要最显著的特征。
-
区分“问题”和“解决方法”,在强化学习中十分重要。
-
马尔可夫决策过程包含三方面——感知、动作和目标。
-
强化学习目的是最大化收益信号,而不是找出数据的隐含结构。
强化学习要素
-
在个体和环境之外,强化学习系统一般有四个要素:策略、收益信号、价值函数、环境模型。
-
策略:定义学习智能体在给定时间内行为方式。
-
收益信号:定义强化学习问题中的目标。
-
价值函数:定义长期收益,收益信号表明直接意义上的好处。
-
没有收益就没有价值,而评估价值的唯一目的就是获得更多的收益
局限性与适用范围
扩展示例:井子祺
- 前一状态的当前值被更新为更接近后续状态的值,这可以通过先前状态的值移动到稍后状态的值的一小部分来完成。如果我们让
S
t
S_t
St表示贪婪移动之前的状态,而
S
t
+
1
S_{t+1}
St+1表示移动之后的状态,那么将
S
t
S_t
St的估计值更新表示为
V
(
S
t
)
V(S_t)
V(St),可以写为:
V ( S t ) = V ( S t ) + α [ V ( S t + 1 ) − V ( S t ) ] V(S_t) = V(S_t) + \alpha\left[V(S_{t+1})-V(S_t)\right] V(St)=V(St)+α[V(St+1)−V(St)]
α \alpha α为学习率,此更新规则为时序差分学习方法的一个例子,因为其变化基于两个连续时间的估计之间的差,即: [ V ( S t + 1 ) − V ( S t ) ] \left[V(S_{t+1})-V(S_t)\right] [V(St+1)−V(St)]