人工智能教程 - 專業選修課程4.3.12 - 高級人工智能 6.馬爾科夫決策過程

馬爾科夫決策過程

在這裏插入圖片描述

馬爾科夫決策過程的要素

在這裏插入圖片描述

(有限)馬爾科夫決策過程的建模

在這裏插入圖片描述

MDP例子

在這裏插入圖片描述

獎勵假設

在這裏插入圖片描述

獎勵設置

在這裏插入圖片描述

累積獎勵

在這裏插入圖片描述

累積獎勵的遞推公式

在這裏插入圖片描述

策略和狀態估計函數

在這裏插入圖片描述

貝爾曼方程(AlphaGo核心方程)

在這裏插入圖片描述

貝爾曼方程作用

在這裏插入圖片描述

小世界例子

在這裏插入圖片描述

最優策略

在這裏插入圖片描述

貝爾曼最優性方程

在這裏插入圖片描述

尋找最優策略

在這裏插入圖片描述

在這裏插入圖片描述

總結:尋找最優策略四個方法:

  • 動態規劃方法

  • 蒙特卡洛方法

  • 時序查分方法

  • 參數化方法

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章