馬爾科夫獎勵過程
Markov Reward Process
可以視爲帶有value function 價值判斷的過程
由一個元組tuple構成
R:是獎勵函數
告訴我們如果我們從s開始,能夠從這個狀態獲得多少獎勵
:是衰減因子 discount factor
收穫/回報 Return
最大化的累計獎勵的總和
定義
收穫 是一個馬爾科夫獎勵過程中從從開始採樣的初始狀態到結束狀態的衰減因子和獎勵乘積的累積。
The return Gt is the total discounted reward from time-step t.
- 不考慮後續狀態,屬於短視行爲
- 考慮所有後續狀態,屬於長遠眼光行爲
使用衰減因子 discount factor的原因
- 針對不確定性的策略,目前沒有完美的模型。
- 數學上的方便
- 避免循環上產生的弊端
- 金融領域尤其需要
- 人類的偏好
價值函數
價值是長距離值中獲得的期望
學生馬爾科夫鏈的回報 return
貝爾曼方程
貝爾曼方程由兩部分組成。當前狀態的獎勵和後續狀態價值按照概率分佈求和乘以衰減因子共同組成的價值。