强化学习系列(一):基础概念

三要素:

rewards, actions, states
RL framework

马尔可夫奖励过程:

马尔可夫奖励过程可以表示为 $ $ ,其中:

  • $ S $ 为状态集合;
  • $ P $ 为状态转移矩阵, $ P_{ss’}=P[S_{t+1}=s’|S_t=s] $ ;
  • $ R $ 为奖励函数, $ R_s=E[R_{t+1}|S_t=s] $ ;
  • $ \gamma $ 为折扣因子, $ \gamma \in [0,1] $ 。

总折扣奖励:

回报(Return) $ G_t $ 表示从时刻 $ t $ 开始的总折扣奖励:

  • 状态价值函数: $ v(s)=E[G_t|S_t=s] $
  • 行为价值函数: $ q(s,a)=E[G_t|S_t=s,A_t=a] $

Bellman 方程:

Bellman 方程表示状态价值函数的递归形式:

根据下方的状态价值迭代示意图,我们可以得到:

状态价值迭代示意图

根据行为价值迭代示意图,可以得到:

行为价值迭代示意图

马尔可夫决策过程:

马尔可夫决策过程(MDP)表示为 $ $ ,其中:

  • $ S $ 是状态集合;
  • $ A $ 为动作集合;
  • $ P $ 为状态转移矩阵, $ P_{ss’}^a=P[S_{t+1}=s’|S_t=s, A_t=a] $ ;
  • $ R $ 为奖励函数, $ R_s^a=E[R_{t+1}|S_t=s, A_t=a] $ 。

状态的转移基于决策策略(policy) $ \pi $ 所产生的动作, $ \pi $ 用来基于当前状态给出下一步行动的规划:

价值函数:

由此,我们可以定义策略 $ \pi $ 下的状态价值函数和行为价值函数:

使用即时奖励的形式,可以转换为:

最优价值函数:

定理:如果对于任意的状态 $ s $ ,都有 $ v_{\pi}(s) \geq v_{\pi’}(s) $ ,则策略 $ \pi $ 优于策略 $ \pi’ $ 。

Q&A:

Ques: 奖励是由状态变化产生的还是由行动产生的?
Ans: 奖励(Reward)通常是由 行动(Action) 产生的,而不是由状态变化直接产生的。在强化学习(RL)中,奖励的定义是智能体(Agent)在环境(Environment)中执行某个 动作 后得到的反馈,它表示智能体在采取该动作后获得的即时回报。状态变化是行为导致的结果。