人工智能教程 - 專業選修課程4.3.5 - 強化學習 6.馬爾科夫獎勵過程

馬爾科夫獎勵過程

Markov Reward Process

可以視爲帶有value function 價值判斷的過程

由一個<S,P,R,γ><S,P, R, \gamma >元組tuple構成

R:是獎勵函數 Rs=E[Rt+1St=s]R_s = \mathbb{E} [R_{t+1} | S_t = s]

告訴我們如果我們從s開始,能夠從這個狀態獲得多少獎勵

γ\gamma:是衰減因子 discount factor γ[0,1]\gamma\in [0, 1]

在這裏插入圖片描述

收穫/回報 Return

最大化的累計獎勵的總和

定義

收穫 GtG_t是一個馬爾科夫獎勵過程中從從開始採樣的初始狀態StS_t到結束狀態的衰減因子和獎勵乘積的累積。
The return Gt is the total discounted reward from time-step t.

Gt=Rt+1+γRt+2+...=k=0γkRt+k+1\LARGE\color{red}G_t=R_{t+1}+\gamma R_{t+2}+...=\sum _{k=0}^{\infty}\gamma^kR_{t+k+1}

  • γ[0,1]\gamma \in [0,1]
  • γ=0\gamma =0 不考慮後續狀態,屬於短視行爲
  • γ=1\gamma =1 考慮所有後續狀態,屬於長遠眼光行爲

使用衰減因子 discount factor的原因

  1. 針對不確定性的策略,目前沒有完美的模型。
  2. 數學上的方便
  3. 避免循環上產生的弊端
  4. 金融領域尤其需要
  5. 人類的偏好

價值函數

價值是長距離值中獲得的期望

v(s)=E[GtSt=s]v(s) = \mathbb{E} [G_t|S_t = s]

學生馬爾科夫鏈的回報 return

在這裏插入圖片描述

γ=0\gamma =0

在這裏插入圖片描述

γ=0.9\gamma =0.9

在這裏插入圖片描述

貝爾曼方程

在這裏插入圖片描述

在這裏插入圖片描述
貝爾曼方程由兩部分組成。當前狀態的獎勵和後續狀態價值按照概率分佈求和乘以衰減因子共同組成的價值。

矩陣的形式

在這裏插入圖片描述

貝爾曼的解決方案:

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章