强化学习系列(一):基础概念

强化学习系列(一):基础概念
Peter三要素:
rewards, actions, states
马尔可夫奖励过程:
马尔可夫奖励过程可以表示为 $ $ ,其中:
- $ S $ 为状态集合;
- $ P $ 为状态转移矩阵, $ P_{ss’}=P[S_{t+1}=s’|S_t=s] $ ;
- $ R $ 为奖励函数, $ R_s=E[R_{t+1}|S_t=s] $ ;
- $ \gamma $ 为折扣因子, $ \gamma \in [0,1] $ 。
总折扣奖励:
回报(Return) $ G_t $ 表示从时刻 $ t $ 开始的总折扣奖励:
- 状态价值函数: $ v(s)=E[G_t|S_t=s] $
- 行为价值函数: $ q(s,a)=E[G_t|S_t=s,A_t=a] $
Bellman 方程:
Bellman 方程表示状态价值函数的递归形式:
根据下方的状态价值迭代示意图,我们可以得到:
根据行为价值迭代示意图,可以得到:
马尔可夫决策过程:
马尔可夫决策过程(MDP)表示为 $ $ ,其中:
- $ S $ 是状态集合;
- $ A $ 为动作集合;
- $ P $ 为状态转移矩阵, $ P_{ss’}^a=P[S_{t+1}=s’|S_t=s, A_t=a] $ ;
- $ R $ 为奖励函数, $ R_s^a=E[R_{t+1}|S_t=s, A_t=a] $ 。
状态的转移基于决策策略(policy) $ \pi $ 所产生的动作, $ \pi $ 用来基于当前状态给出下一步行动的规划:
价值函数:
由此,我们可以定义策略 $ \pi $ 下的状态价值函数和行为价值函数:
使用即时奖励的形式,可以转换为:
最优价值函数:
定理:如果对于任意的状态 $ s $ ,都有 $ v_{\pi}(s) \geq v_{\pi’}(s) $ ,则策略 $ \pi $ 优于策略 $ \pi’ $ 。
Q&A:
Ques: 奖励是由状态变化产生的还是由行动产生的?
Ans: 奖励(Reward)通常是由 行动(Action) 产生的,而不是由状态变化直接产生的。在强化学习(RL)中,奖励的定义是智能体(Agent)在环境(Environment)中执行某个 动作 后得到的反馈,它表示智能体在采取该动作后获得的即时回报。状态变化是行为导致的结果。
评论
匿名评论隐私政策
✅ 你无需删除空行,直接评论以获取最佳展示效果