馬爾可夫決策過程MDP： a Markov reward process with decisions

策略

給定狀態s下的動作的分佈函數就是policy $\large \pi$ ，它完全定義了agent的行爲。

MDP過程僅取決於當前的狀態，而不是歷史信息H，也就是說，策略是穩態分佈（stationary ，time-independent） $\large A_{t} \sim \pi\left(\cdot | S_{t}\right), \forall t>0$
給定一個 MDP $\large \mathcal{M}=\langle\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma\rangle$ 和一個 policy π，
狀態序列 $S_{1}, S_{2}, \dots$ ..是一個馬爾可夫過程 $\left\langle\mathcal{S}, \mathcal{P}^{\pi}\right\rangle$
狀態序列和回報序列組成的 $S_{1}, R_{2}, S_{2}, \ldots$ 是馬爾科夫回報過程 $\left\langle\mathcal{S}, \mathcal{P}^{\pi}, \mathcal{R}^{\pi}, \gamma\right\rangle$

其中 $\begin{aligned} \mathcal{P}_{s, s^{\prime}}^{\pi} &=\sum_{a \in \mathcal{A}} \pi(a | s) \mathcal{P}_{s s^{\prime}}^{a}\,\: ; \: \: \: \: \: \: \mathcal{R}_{s}^{\pi} &=\sum_{a \in \mathcal{A}} \pi(a | s) \mathcal{R}_{s}^{a} \end{aligned}$

值函數

根據策略 $\large \pi$ 採取的行爲不同，所得的回報也不盡相同。

狀態-值函數反映了在狀態s處，根據策略 $\large \pi$ 對所有的動作採樣，的結果會有多好。

一個MDP的狀態 - 值函數 $\large $ v_{\pi}(s) $$ 是從狀態s開始，並後續採取策略 $\large \pi$ 的回報的期望值：

$\large $ v_{\pi}(s)=\mathbb{E}_{\pi}\left[G_{t} | S_{t}=s\right] $$

動作 - 值函數 $\large $ q_{\pi}(s, a)$ 是在狀態s 採取動作a,並後續採取策略 $\large \pi$ 的回報的期望值

$\large $ q_{\pi}(s, a)=\mathbb{E}_{\pi}\left[G_{t} | S_{t}=s, A_{t}=a\right] $$

Example: State-Value Function for Student MDP

Bellman 期望公式

state-value function = immediate reward + discounted value of successor state,狀態值函數可以分解爲直接彙報加上後繼狀態的折扣State值。

$\large $$ v_{\pi}(s)=\mathbb{E}_{\pi}\left[R_{t+1}+\gamma v_{\pi}\left(S_{t+1}\right) | S_{t}=s\right] $$$

動作-值函數可以分解爲 $\large $$ q_{\pi}(s, a)=\mathbb{E}_{\pi}\left[R_{t+1}+\gamma q_{\pi}\left(S_{t+1}, A_{t+1}\right) | S_{t}=s, A_{t}=a\right] $$$

Example: Bellman期望公式 in Student MDP

只考慮紅色圓圈的這個state，它表示class 3 ，我們要驗證用Bellman期望公式計算的值函數無惡是維7.4.

在class 3 這個狀態下，去pub 和學習的概率各爲50%，在這個策略下，以50%的概率去pub後又各以0.2，0.4，0.4的概率去class1，class2, class3, .

Bellman期望公式的矩陣形式

$\large $$ v_{\pi}=\mathcal{R}^{\pi}+\gamma \mathcal{P}^{\pi} v_{\pi} $$$

求出解的形式：

$\large $$ v_{\pi}=\left(I-\gamma \mathcal{P}^{\pi}\right)^{-1} \mathcal{R}^{\pi} $$$

最優值函數 Optimal Value Function

根據MDP可以得到不同的策略，最優值函數指出了MDP中的最佳表現，當我們已知一個MDP的最優值 $\large f_{n}$ 時，可認爲已經求解出這個MDP了。

最優策略對應的V值就是最優V值，對應的Q值就是最優Q值。

最優狀態-值函數： the maximum value function over all policies

$\large $$ v_{*}(s)=\max _{\pi} v_{\pi}(s) $$$

最優動作-值函數： the maximum action-value function over all policies

$\large $$ q_{*}(s, a)=\max _{\pi} q_{\pi}(s, a) $$$

最優策略

怎樣可以判定一個策略要優於另一個策略？這需要我們先對所有策略定義一個偏序[ partial ordering]：其中 $\large $$ \pi \, , \pi^{\prime}\,$ 表示任意的兩個策略,在所有狀態s下，一個策略 $\large $$ \pi \,$ 的值函數都大於等於另一個策略 $\large \pi^{\prime}\,$ 的值函數時，我們認爲 $\large $$ \pi \geq \pi^{\prime}\,$ ，

$\large $$ \pi \geq \pi^{\prime}\, \, \, \text { if } v_{\pi}(s) \geq v_{\pi^{\prime}}(s), \forall s $$$

Theorem

對任一MDP，總存在一個最優策略 $\large \pi _{*}$ 要優於其他所有策略： $\large $$ \pi_{*} \geq \pi, \forall \pi $$$

當有多個最優策略時，所有的最優策略的最優值函數相等： $\large $$ v_{\pi_{*}}(s)=v_{*}(s) $$$

當有多個最優策略時，所有的最優策略的最優動作-值函數相等： $\large $$ q_{\pi_{*}}(s, a)=q_{*}(s, a) $$$

怎麼求出最優策略？ —— 最大化 $\large q_{*}(s, a)$ ,

對任一的MDP，總存在一個確定的最優策略，如果已知 $\large q_{*}(s, a)$ ，那麼最優策略可立即求解。

$\large $$ \pi_{*}(a | s)=\left\{\begin{array}{ll}{1} & {\text { if } a=\operatorname{argmax}_{a \in \mathcal{A}} q_{*}(s, a)} \\ {0} & {\text { otherwise }}\end{array}\right. $$$

Bellman最優方程Optimality Equation

貝爾曼最優方程描述瞭如何求解MDP方程，如何把它們和最優值函數聯繫起來。

貝爾曼最優方程時非線性的，通常沒有閉解【closed form solution】，但是有很多迭代方法可以求解：Value Iteration值迭代、 Policy Iteration策略迭代、 Q-learning 、Sarsa。

MDPs 的擴展

Inﬁnite and continuous MDPs ；有以下幾種情形：

無限可數的狀態/動作空間；

連續的狀態/動作空間：線性二次模型的閉解形式【linear quadratic model (LQR)】

連續時間：需要用偏微分方程、Hamilton-Jacobi-Bellman (HJB)方程、當時間步趨於0時是貝爾曼方程的極限情形。

Partially observable MDPs 【POMDPs】：具有隱狀態的MDP

Belief States

history $\large H_{t}$ 是動作、觀測和回報構成的序列： $\large $$ H_{t}=A_{0}, O_{1}, R_{1}, \ldots, A_{t-1}, O_{t}, R_{t} $$$

belief state b(h) 是基於歷史數據H的狀態的概率分佈，

$\large $$ b(h)=\left(\mathbb{P}\left[S_{t}=s^{1} | H_{t}=h\right], \ldots, \mathbb{P}\left[S_{t}=s^{n} | H_{t}=h\right]\right) $$$

Reductions of POMDPs

歷史信息 $\large H_{t}$ 滿足馬爾可夫性；信念狀態 $\large $$ b\left(H_{t}\right) $$$ 也滿足馬爾可夫性；

POMDP 可以被分解爲一個 (inﬁnite) history tree 和 belief state tree

Undiscounted, average reward MDPs

Ergodic Markov Process 遍歷馬氏過程

循環性Recurrent：每個狀態會被訪問無數次
非週期的 Aperiodic ：每個狀態的訪問沒有系統週期

Theorem

一個遍歷馬氏過程具有一個極限穩態分佈 $\large $$ d^{\pi}(s) $$$ ，它滿足以下性質：

$\large $$ d^{\pi}(s)=\sum_{s^{\prime} \in \mathcal{S}} d^{\pi}\left(s^{\prime}\right) \mathcal{P}_{s^{\prime} s} $$$

如果一個馬氏鏈是由一個有遍歷性的策略推導而來，那麼這個MDP具有遍歷性【ergodic.】

對任一策略 $\large \pi$ ，一個遍歷MDP的 $\large $$ \rho^{\pi}$ 是獨立於起始狀態的， $\large $$ \rho^{\pi}$ 是每個時間步的平均回報。

$\large $$ \rho^{\pi}=\lim _{T \rightarrow \infty} \frac{1}{T} \mathbb{E}\left[\sum_{t=1}^{T} R_{t}\right] $$$

Average Reward Value Function

   undiscounted, ergodic MDP 的值函數可以表示爲平均回報的函數。

         $\large $$ \tilde{v}_{\pi}(s)$ 是以s爲起始狀態的超額回報【extra reward】

             $\large $$ \tilde{v}_{\pi}(s)=\mathbb{E}_{\pi}\left[\sum_{k=1}^{\infty}\left(R_{t+k}-\rho^{\pi}\right) | S_{t}=s\right] $$$

相應的平均回報的貝爾曼方程可表示爲

$\large $$ \begin{aligned} \tilde{v}_{\pi}(s) &=\mathbb{E}_{\pi}\left[\left(R_{t+1}-\rho^{\pi}\right)+\sum_{k=1}^{\infty}\left(R_{t+k+1}-\rho^{\pi}\right) | S_{t}=s\right] \\ &=\mathbb{E}_{\pi}\left[\left(R_{t+1}-\rho^{\pi}\right)+\tilde{v}_{\pi}\left(S_{t+1}\right) | S_{t}=s\right] \end{aligned} $$$

強化學習(三）：馬爾可夫決策過程MDP【下篇】

馬爾可夫決策過程MDP： a Markov reward process with decisions

策略