強化學習(三):馬爾可夫決策過程MDP【下篇】

目錄

 馬爾可夫決策過程MDP: a Markov reward process with decisions

策略

值函數

Bellman 期望公式

Bellman期望公式 的矩陣形式

最優值函數 Optimal Value Function

最優策略

     Bellman最優方程Optimality Equation

 MDPs 的擴展

Ergodic Markov Process 遍歷馬氏過程

Average Reward Value Function



 馬爾可夫決策過程MDP: a Markov reward process with decisions

 

策略

給定狀態s下的動作的分佈函數就是policy \large \pi,它完全定義了agent的行爲。

  • MDP過程僅取決於當前的狀態,而不是歷史信息H,也就是說,策略是穩態分佈(stationary ,time-independent) \large A_{t} \sim \pi\left(\cdot | S_{t}\right), \forall t>0

  • 給定一個 MDP  \large \mathcal{M}=\langle\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma\rangle  和一個 policy π,
  • 狀態序列 S_{1}, S_{2}, \dots  ..是一個馬爾可夫過程$\left\langle\mathcal{S}, \mathcal{P}^{\pi}\right\rangle$  
  • 狀態序列和回報序列組成的$S_{1}, R_{2}, S_{2}, \ldots$是馬爾科夫回報過程 $\left\langle\mathcal{S}, \mathcal{P}^{\pi}, \mathcal{R}^{\pi}, \gamma\right\rangle$

       其中      $\begin{aligned} \mathcal{P}_{s, s^{\prime}}^{\pi} &=\sum_{a \in \mathcal{A}} \pi(a | s) \mathcal{P}_{s s^{\prime}}^{a}\,\: ; \: \: \: \: \: \: \mathcal{R}_{s}^{\pi} &=\sum_{a \in \mathcal{A}} \pi(a | s) \mathcal{R}_{s}^{a} \end{aligned}$

值函數

根據策略 \large \pi採取的行爲不同,所得的回報也不盡相同。

狀態-值函數反映了在狀態s處,根據策略 \large \pi對所有的動作採樣,的結果會有多好。

  • 一個MDP的狀態 - 值函數 \large $ v_{\pi}(s) $是從狀態s開始,並後續採取策略 \large \pi的回報的期望值:

            \large $ v_{\pi}(s)=\mathbb{E}_{\pi}\left[G_{t} | S_{t}=s\right] $

  •           動作 - 值函數 \large $ q_{\pi}(s, a)  是在狀態s 採取動作a,並後續採取策略 \large \pi的回報的期望值       

                     \large $ q_{\pi}(s, a)=\mathbb{E}_{\pi}\left[G_{t} | S_{t}=s, A_{t}=a\right] $

 

Example: State-Value Function for Student MDP

 

Bellman 期望公式

  • state-value function = immediate reward +  discounted value of successor state,狀態值函數可以分解爲 直接彙報加上後繼狀態的折扣State值。

  \large $$ v_{\pi}(s)=\mathbb{E}_{\pi}\left[R_{t+1}+\gamma v_{\pi}\left(S_{t+1}\right) | S_{t}=s\right] $$

  • 動作-值函數可以分解爲    \large $$ q_{\pi}(s, a)=\mathbb{E}_{\pi}\left[R_{t+1}+\gamma q_{\pi}\left(S_{t+1}, A_{t+1}\right) | S_{t}=s, A_{t}=a\right] $$

 

Example: Bellman期望公式 in Student MDP

           

只考慮紅色圓圈的這個state,它表示class 3 ,我們要驗證 用Bellman期望公式計算的值函數無惡是維7.4.

在class 3  這個狀態下,去pub 和學習的概率各爲50%, 在這個策略下,以50%的概率去pub後又各以0.2,0.4,0.4的概率去class1,class2, class3, .

 

Bellman期望公式 的矩陣形式

 

                     \large $$ v_{\pi}=\mathcal{R}^{\pi}+\gamma \mathcal{P}^{\pi} v_{\pi} $$         

求出解的形式:

                    \large $$ v_{\pi}=\left(I-\gamma \mathcal{P}^{\pi}\right)^{-1} \mathcal{R}^{\pi} $$

 

最優值函數 Optimal Value Function

根據MDP可以得到不同的策略,最優值函數指出了MDP中的最佳表現,當我們已知一個MDP的最優值 \large f_{n} 時,可認爲已經求解出這個MDP了。

最優策略對應的V值就是最優V值,對應的Q值就是最優Q值。

最優狀態-值函數: the maximum value function over all policies 

             \large $$ v_{*}(s)=\max _{\pi} v_{\pi}(s) $$

最優動作-值函數: the maximum action-value function over all policies

             \large $$ q_{*}(s, a)=\max _{\pi} q_{\pi}(s, a) $$

最優策略

         怎樣可以判定一個策略要優於另一個策略?這需要我們先對所有策略定義一個偏序[ partial ordering]:其中\large $$ \pi \, , \pi^{\prime}\,表示任意的兩個策略,在所有狀態s下,一個策略\large $$ \pi \,的值函數都大於等於另一個策略\large \pi^{\prime}\,的值函數時,我們認爲\large $$ \pi \geq \pi^{\prime}\,

               \large $$ \pi \geq \pi^{\prime}\, \, \, \text { if } v_{\pi}(s) \geq v_{\pi^{\prime}}(s), \forall s $$

 

Theorem

  • 對任一MDP,總存在一個最優策略 \large \pi _{*} 要優於其他所有策略:\large $$ \pi_{*} \geq \pi, \forall \pi $$

  • 當有多個最優策略時,所有的最優策略的最優值函數相等:  \large $$ v_{\pi_{*}}(s)=v_{*}(s) $$

  • 當有多個最優策略時,所有的最優策略的最優動作-值函數相等: \large $$ q_{\pi_{*}}(s, a)=q_{*}(s, a) $$

 

怎麼求出最優策略? —— 最大化 \large q_{*}(s, a),

對任一的MDP,總存在一個確定的最優策略,如果已知\large q_{*}(s, a),那麼最優策略可立即求解。

            \large $$ \pi_{*}(a | s)=\left\{\begin{array}{ll}{1} & {\text { if } a=\operatorname{argmax}_{a \in \mathcal{A}} q_{*}(s, a)} \\ {0} & {\text { otherwise }}\end{array}\right. $$

 

     Bellman最優方程Optimality Equation

貝爾曼最優方程描述瞭如何求解MDP方程,如何把它們和最優值函數聯繫起來。

 

 

貝爾曼最優方程時非線性的,通常沒有閉解【closed form solution】,但是有很多迭代方法可以求解:Value Iteration值迭代、 Policy Iteration策略迭代、 Q-learning 、Sarsa。


 MDPs 的擴展

 

  • Infinite and continuous MDPs ;      有以下幾種情形:

無限可數的狀態/動作空間;

連續的狀態/動作空間:線性二次模型的閉解形式【linear quadratic model (LQR)】

連續時間:需要用偏微分方程、Hamilton-Jacobi-Bellman (HJB)方程、當時間步趨於0時是貝爾曼方程的極限情形。

  • Partially observable MDPs 【POMDPs】:具有隱狀態的MDP

Belief States

  • history \large H_{t}是動作、觀測和回報構成的序列:\large $$ H_{t}=A_{0}, O_{1}, R_{1}, \ldots, A_{t-1}, O_{t}, R_{t} $$

  • belief state b(h) 是基於歷史數據H的狀態的概率分佈, 

              \large $$ b(h)=\left(\mathbb{P}\left[S_{t}=s^{1} | H_{t}=h\right], \ldots, \mathbb{P}\left[S_{t}=s^{n} | H_{t}=h\right]\right) $$

Reductions of POMDPs

歷史信息\large H_{t}滿足馬爾可夫性;信念狀態  \large $$ b\left(H_{t}\right) $$  也滿足馬爾可夫性;

 POMDP 可以被分解爲一個 (infinite)  history tree 和  belief state tree

  • Undiscounted, average reward MDPs

Ergodic Markov Process 遍歷馬氏過程

  • 循環性Recurrent: 每個狀態會被訪問無數次
  • 非週期的 Aperiodic : 每個狀態的訪問沒有系統週期

Theorem

一個遍歷馬氏過程具有一個極限穩態分佈\large $$ d^{\pi}(s) $$ ,它滿足以下性質:

                   \large $$ d^{\pi}(s)=\sum_{s^{\prime} \in \mathcal{S}} d^{\pi}\left(s^{\prime}\right) \mathcal{P}_{s^{\prime} s} $$

如果一個馬氏鏈 是由一個有遍歷性的策略推導而來,那麼這個MDP具有遍歷性【ergodic.】

對任一策略\large \pi,一個遍歷MDP的 \large $$ \rho^{\pi} 是獨立於起始狀態的, \large $$ \rho^{\pi} 是每個時間步的平均回報。

                   \large $$ \rho^{\pi}=\lim _{T \rightarrow \infty} \frac{1}{T} \mathbb{E}\left[\sum_{t=1}^{T} R_{t}\right] $$

Average Reward Value Function

           undiscounted, ergodic MDP 的值函數可以表示爲平均回報的函數。

           \large $$ \tilde{v}_{\pi}(s) 是以s爲起始狀態的超額回報【extra reward】

                             \large $$ \tilde{v}_{\pi}(s)=\mathbb{E}_{\pi}\left[\sum_{k=1}^{\infty}\left(R_{t+k}-\rho^{\pi}\right) | S_{t}=s\right] $$

相應的平均回報的貝爾曼方程可表示爲

\large $$ \begin{aligned} \tilde{v}_{\pi}(s) &=\mathbb{E}_{\pi}\left[\left(R_{t+1}-\rho^{\pi}\right)+\sum_{k=1}^{\infty}\left(R_{t+k+1}-\rho^{\pi}\right) | S_{t}=s\right] \\ &=\mathbb{E}_{\pi}\left[\left(R_{t+1}-\rho^{\pi}\right)+\tilde{v}_{\pi}\left(S_{t+1}\right) | S_{t}=s\right] \end{aligned} $$


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章