强化学习 导论

强化学习

  • 试错延迟收益是强化学习两个最重要最显著的特征

  • 强化学习既表示一个问题,又是一类解决问题的方法,同时还是一个研究此问题及其解决方法领域

  • 区分“问题”和“解决方法”,在强化学习中十分重要。

  • 马尔可夫决策过程包含三方面——感知动作目标

  • 强化学习目的是最大化收益信号,而不是找出数据的隐含结构。

  • 基于一般原则的方法,比如搜索或学习,被定性为“方法”;而基于知识方法则被称为“方法”。

强化学习要素

  • 在个体和环境之外,强化学习系统一般有四个要素:策略收益信号价值函数环境模型

  • 策略:定义学习智能体在给定时间内行为方式

  • 收益信号:定义强化学习问题中的目标

  • 价值函数:定义长期收益,收益信号表明直接意义上的好处。

  • 没有收益就没有价值,而评估价值的唯一目的就是获得更多的收益

  • 环境模型:对环境的模拟,它对环境的行为做出推断。例如给定状态和动作,模型可以预测结果的一个状态一个收益

局限性与适用范围

  • 强化学习十分依赖“状态”这个概念,它既作为策略和价值函数输入,又同时作为模型的输入与输出
  • 强化学习方法,是在与环境互动中学习的一类方法
  • 进化方法就其自身而言并不适用于强化学习问题。

扩展示例:井子祺

  • 前一状态的当前值被更新为更接近后续状态的值,这可以通过先前状态的值移动到稍后状态的值的一小部分来完成。如果我们让 S t S_t St表示贪婪移动之前的状态,而 S t + 1 S_{t+1} St+1表示移动之后的状态,那么将 S t S_t St的估计值更新表示为 V ( S t ) V(S_t) V(St),可以写为:
    V ( S t ) = V ( S t ) + α [ V ( S t + 1 ) − V ( S t ) ] V(S_t) = V(S_t) + \alpha\left[V(S_{t+1})-V(S_t)\right] V(St)=V(St)+α[V(St+1)V(St)]
    α \alpha α为学习率,此更新规则为时序差分学习方法一个例子,因为其变化基于两个连续时间的估计之间的差,即: [ V ( S t + 1 ) − V ( S t ) ] \left[V(S_{t+1})-V(S_t)\right] [V(St+1)V(St)]

本章小节

  • 强化学习是一种对目标导向的学习与决策问题进行理解和自动化处理的计算方法
  • 强化学习使用马尔可夫决策过程的形式化框架,使用状态、动作和收益定义学习型智能体与环境的互动过程。

相关文章

显卡天梯图2024最新版,显卡是电脑进行图形处理的重要设备,...
初始化电脑时出现问题怎么办,可以使用win系统的安装介质,连...
todesk远程开机怎么设置,两台电脑要在同一局域网内,然后需...
油猴谷歌插件怎么安装,可以通过谷歌应用商店进行安装,需要...
虚拟内存这个名词想必很多人都听说过,我们在使用电脑的时候...