Day 2211:強化學習

馬爾可夫獎勵過程(Markov reward process, MRP)是馬爾可夫鏈加上獎勵函數。在馬爾可夫獎勵過程中,狀態轉移矩陣和狀態都與馬爾可夫鏈一樣,只是多了獎勵函數(reward function)。獎勵函數 R 是一個期望,表示當我們到達某一個狀態的時候可以獲得多大的獎勵。這裏另外定義了折扣因子 γ。如果狀態數是有限的,那麼 R 可以是一個向量。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章