人工智能教程 - 專業選修課程4.3.5 - 強化學習 6.馬爾科夫獎勵過程

馬爾科夫獎勵過程

Markov Reward Process

可以視爲帶有value function 價值判斷的過程

由一個 $<S,P, R, \gamma >$ 元組tuple構成

R：是獎勵函數 $R_s = \mathbb{E} [R_{t+1} | S_t = s]$

告訴我們如果我們從s開始，能夠從這個狀態獲得多少獎勵

$\gamma$ ：是衰減因子 discount factor $\gamma\in [0, 1]$

收穫/回報 Return

最大化的累計獎勵的總和

定義

收穫 $G_t$ 是一個馬爾科夫獎勵過程中從從開始採樣的初始狀態 $S_t$ 到結束狀態的衰減因子和獎勵乘積的累積。
The return Gt is the total discounted reward from time-step t.

$\LARGE\color{red}G_t=R_{t+1}+\gamma R_{t+2}+...=\sum _{k=0}^{\infty}\gamma^kR_{t+k+1}$

$\gamma \in [0,1]$
$\gamma =0$ 不考慮後續狀態，屬於短視行爲
$\gamma =1$ 考慮所有後續狀態，屬於長遠眼光行爲

使用衰減因子 discount factor的原因

針對不確定性的策略，目前沒有完美的模型。
數學上的方便
避免循環上產生的弊端
金融領域尤其需要
人類的偏好

價值函數

價值是長距離值中獲得的期望

$v(s) = \mathbb{E} [G_t|S_t = s]$

學生馬爾科夫鏈的回報 return

$\gamma =0$

$\gamma =0.9$

貝爾曼方程

貝爾曼方程由兩部分組成。當前狀態的獎勵和後續狀態價值按照概率分佈求和乘以衰減因子共同組成的價值。

矩陣的形式

貝爾曼的解決方案：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

人工智能教程 - 專業選修課程4.3.5 - 強化學習 6.馬爾科夫獎勵過程

馬爾科夫獎勵過程

可以視爲帶有value function 價值判斷的過程

由一個 $<S,P, R, \gamma >$ 元組tuple構成

R：是獎勵函數 $R_s = \mathbb{E} [R_{t+1} | S_t = s]$

$\gamma$ ：是衰減因子 discount factor $\gamma\in [0, 1]$

收穫/回報 Return

最大化的累計獎勵的總和

定義

$\LARGE\color{red}G_t=R_{t+1}+\gamma R_{t+2}+...=\sum _{k=0}^{\infty}\gamma^kR_{t+k+1}$

價值函數

價值是長距離值中獲得的期望

學生馬爾科夫鏈的回報 return

$\gamma =0$

$\gamma =0.9$

貝爾曼方程

矩陣的形式

貝爾曼的解決方案：

人工智能教程 - 學科基礎課程2.6 - 機器學習導論 14.降維,數據壓縮,可視化數據,PCA簡介

人工智能教程 - 專業選修課程4.3.11 - 複雜結構數據挖掘 7.在線算法,貪心算法,完美匹配

人工智能筆記之專業選修課4.1.5 - 博弈論 1.退避機制，博弈基本概念，重要元素，形式

人工智能教程 - 專業選修課程4.3.5 - 強化學習 12.無模型預測,蒙特卡羅強化學習

人工智能筆記之專業選修課4.1.5 - 博弈論 2.經典囚徒困境等經典博弈場景

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

人工智能教程 - 專業選修課程4.3.5 - 強化學習 6.馬爾科夫獎勵過程

馬爾科夫獎勵過程

可以視爲帶有value function 價值判斷的過程

由一個<S,P,R,γ><S,P, R, \gamma ><S,P,R,γ>元組tuple構成

R：是獎勵函數 Rs=E[Rt+1∣St=s]R_s = \mathbb{E} [R_{t+1} | S_t = s]Rs​=E[Rt+1​∣St​=s]

γ\gammaγ：是衰減因子 discount factor γ∈[0,1]\gamma\in [0, 1]γ∈[0,1]

收穫/回報 Return

最大化的累計獎勵的總和

定義

Gt=Rt+1+γRt+2+...=∑k=0∞γkRt+k+1\LARGE\color{red}G_t=R_{t+1}+\gamma R_{t+2}+...=\sum _{k=0}^{\infty}\gamma^kR_{t+k+1}Gt​=Rt+1​+γRt+2​+...=∑k=0∞​γkRt+k+1​

價值函數

價值是長距離值中獲得的期望

學生馬爾科夫鏈的回報 return

γ=0\gamma =0γ=0

γ=0.9\gamma =0.9γ=0.9

貝爾曼方程

矩陣的形式

貝爾曼的解決方案：

由一個 $<S,P, R, \gamma >$ 元組tuple構成

R：是獎勵函數 $R_s = \mathbb{E} [R_{t+1} | S_t = s]$

$\gamma$ ：是衰減因子 discount factor $\gamma\in [0, 1]$

$\LARGE\color{red}G_t=R_{t+1}+\gamma R_{t+2}+...=\sum _{k=0}^{\infty}\gamma^kR_{t+k+1}$

$\gamma =0$

$\gamma =0.9$