type
status
date
slug
summary
tags
category
icon
password
强化学习简介
强化学习任务通常使用马尔可夫决策过程(Markov Decision Process,简称MDP)来描述,具体而言:机器处在一个环境中,每个状态为机器对当前环境的感知;机器只能通过动作来影响环境,当机器执行一个动作后,会使得环境按某种概率转移到另一个状态;同时,环境会根据潜在的奖赏函数反馈给机器一个奖赏。综合而言,强化学习主要包含四个要素:状态、动作、转移概率以及奖赏函数。

根据上图,agent(智能体)在进行某个任务时,首先与environment进行交互,产生新的状态state,同时环境给出奖励reward,如此循环下去,agent和environment不断交互产生更多新的数据。强化学习算法就是通过一系列动作策略与环境交互,产生新的数据,再利用新的数据去修改自身的动作策略,经过数次迭代后,agent就会学习到完成任务所需要的动作策略。
马尔科夫过程(Markov Process)
马尔可夫性当前状态包含了对未来预测所需要的有用信息,过去信息对未来预测不重要,该就满足了马尔科夫性,严格来说,就是某一状态信息包含了所有相关的历史,只要当前状态可知,所有的历史信息都不再需要,当前状态就可以决定未来,则认为该状态具有马尔科夫性。用公式描述为:
根据系统状态是否完全可被观测以及系统是自动的还是受控的,可以将马尔可夫模型分为 4 种,如下表所示:
ㅤ | 状态状态完全可被观测 | 系统状态不是完全可被观测 |
状态是自动的 | 马尔可夫链(MC) | 隐马尔可夫模型(HMM) |
系统是受控的 | 马尔可夫决策过程(MDP) | 部分可观测马尔可夫决策过程(POMDP) |
马尔可夫链(Markov Chain,MC)为从一个状态到另一个状态转换的随机过程,当马尔可夫链的状态只能部分被观测到时,即为隐马尔可夫模型(Hidden Markov Model,HMM),也就是说观测值与系统状态有关,但通常不足以精确地确定状态。马尔可夫决策过程(Markov Decision Process,MDP)也是马尔可夫链,但其状态转移取决于当前状态和采取的动作,通常一个马尔可夫决策过程用于计算依据期望回报最大化某些效用的行动策略。部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)即为系统状态仅部分可见情况下的马尔可夫决策过程。
如下如所示:对于状态s1来说,有0.1的概率保持不变,有0.2的概率转移到s2状态,有0.7的概率转移到s4状态。

可以使用矩阵来表示:

马尔科夫奖励过程(Markov Reward Process)
马尔科夫奖励过程是在马尔科夫过程基础上增加了奖励函数和衰减系数 ,用表示:
- : 表示状态下某一时刻的状态在下一个时刻能获得的奖励的期望
- :收获为在一个马尔科夫奖励链上从t时刻开始往后所有的奖励的有衰减的收益总和
- :折扣因子
- 1、为了避免出现状态循环的情况
- 2、系统对于将来的预测并不一定都是准确的,所以要打折扣
- 很显然越靠近1,考虑的利益越长远。
- : 状态价值函数(state value function)表示从从该状态开始的马尔科夫链收获的期望
马尔科夫决策过程(Markov Decision Process)
马尔科夫决策过程是在马尔科夫奖励过程的基础上加了 Decision 过程,相当于多了一个动作集合,可以用,这里的 P 和 R 都与具体的行为 a 对应,而不像马尔科夫奖励过程那样仅对应于某个状态。
- 表示有限的行为集合
- 表示有限的状态集合
- is dynamics / transition model for each action
- 是奖励函数
策略(Policy)
用 表示策略的集合,其元素 表示某一状态 采取可能的行为的概率
这里需要注意的是:
- Policy定义完整定义的个体行为方式,即包括了个体在各状态下的所有行为和概率
- 同时某一确定的Policy是静态的,与时间无关
- Policy仅和当前的状态有关,与历史信息无关,但是个体可以随着时间更新策略
在马尔科夫奖励过程中 策略 π 满足以下方程,可以参照下面图来理解

状态转移概率可以描述为:在执行策略 π 时,状态从 s 转移至 s’ 的概率等于执行该状态下所有行为的概率与对应行为能使状态从 s 转移至 s’ 的概率的乘积的和。参考下图
奖励函数可以描述为:在执行策略 π 时获得的奖励等于执行该状态下所有行为的概率与对应行为产生的即时奖励的乘积的和。

- Author:Koreyoshi
- URL:https://tangly1024.com/article/230c7b13-c6a7-8028-b27f-facbe77d0dd0
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!


