强化学习系列（一）:基础概念

Peter2025-03-052025-06-23

三要素：

rewards, actions, states
RL framework

马尔可夫奖励过程：

马尔可夫奖励过程可以表示为 $ $ ，其中：

$ S $ 为状态集合；
$ P $ 为状态转移矩阵， $ P_{ss’}=P[S_{t+1}=s’|S_t=s] $ ；
$ R $ 为奖励函数， $ R_s=E[R_{t+1}|S_t=s] $ ；
$ \gamma $ 为折扣因子， $ \gamma \in [0,1] $ 。

总折扣奖励：

回报（Return） $ G_t $ 表示从时刻 $ t $ 开始的总折扣奖励：

$G_t=R_{t+1}+\gamma R_{t+2}+...=\sum_{k=0}^\infty \gamma^k R_{t+k+1}$

状态价值函数： $ v(s)=E[G_t|S_t=s] $
行为价值函数： $ q(s,a)=E[G_t|S_t=s,A_t=a] $

Bellman 方程：

Bellman 方程表示状态价值函数的递归形式：

$v(s)=E[G_t|S_t=s]=E[R_{t+1}+\gamma R_{t+2}+...|S_t=s]=E[R_{t+1}+\gamma G_{t+1}|S_t=s]=E[R_{t+1}+\gamma v(S_{t+1})|S_t=s]$

根据下方的状态价值迭代示意图，我们可以得到：

$v(s)=R_s + \gamma \sum_{s' \in S}P_{ss'}v(s')$

状态价值迭代示意图

根据行为价值迭代示意图，可以得到：

$q(s,a)=R_s^a + \gamma \sum_{s' \in S}P_{ss'}^a v(s')$

行为价值迭代示意图

马尔可夫决策过程：

马尔可夫决策过程（MDP）表示为 $ $ ，其中：

$ S $ 是状态集合；
$ A $ 为动作集合；
$ P $ 为状态转移矩阵， $ P_{ss’}^a=P[S_{t+1}=s’|S_t=s, A_t=a] $ ；
$ R $ 为奖励函数， $ R_s^a=E[R_{t+1}|S_t=s, A_t=a] $ 。

状态的转移基于决策策略（policy） $ \pi $ 所产生的动作， $ \pi $ 用来基于当前状态给出下一步行动的规划：

$\pi(a|s)=P[A_t=a|S_t=s]$

价值函数：

由此，我们可以定义策略 $ \pi $ 下的状态价值函数和行为价值函数：

$v_{\pi}(s)=E_{\pi}[G_t|S_t=s]$ $q_{\pi}(s,a)=E_{\pi}[G_t|S_t=s, A_t=a]$

使用即时奖励的形式，可以转换为：

$v_{\pi}(s)=E_{\pi}[R_{t+1}+\gamma v_{\pi}(S_{t+1})|S_t=s]$ $q_{\pi}(s,a)=E_{\pi}[R_{t+1}+\gamma q_{\pi}(S_{t+1},A_{t+1})|S_t=s, A_t=a]$

最优价值函数：

$v_*(s)=\max_{\pi}v_{\pi}(s)$ $q_*(s,a)=\max_{\pi}q_{\pi}(s,a)$

定理：如果对于任意的状态 $ s $ ，都有 $ v_{\pi}(s) \geq v_{\pi’}(s) $ ，则策略 $ \pi $ 优于策略 $ \pi’ $ 。

Q&A：

Ques： 奖励是由状态变化产生的还是由行动产生的？
Ans： 奖励（Reward）通常是由 行动（Action） 产生的，而不是由状态变化直接产生的。在强化学习（RL）中，奖励的定义是智能体（Agent）在环境（Environment）中执行某个动作后得到的反馈，它表示智能体在采取该动作后获得的即时回报。状态变化是行为导致的结果。