Value-Based

值函數Vπ(St)V^π(S_t)

在這裏插入圖片描述

蒙特卡洛(監督學習方法)

VπV^π無限接近GaG_a(也就是t=1nrt\sum_{t=1}^{n}r^t)
在這裏插入圖片描述

TD(單步更新)(更常用)有時候遊戲太長了,玩不到結尾

lossloss = Vπ(St)Vπ(St+1)rtV^π(S_t)-V^π(S_{t+1})-r_t
在這裏插入圖片描述

Q value

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章