《強化學習導論》中關於帶控制變量的每次決策型方法的理解

在這裏插入圖片描述
從書中前面的介紹中可以看到,G通過加入一個控制變量,來達到降低方法的效果。雖然後面不知道怎麼在推導正式公式的時後沒有看到1-ρ的身影。。。(這裏如果有知道的小夥伴,請留下您的意見)。
在這裏插入圖片描述
對於後面的這個公式來說,我的理解是:
第一:Gt+1:h也是個遞歸,還沒展開。
第二:這個最終結果就類似樹回溯算法,只不過這裏用的是ρ。
在這裏插入圖片描述
這個地方稍微畫以下就可以看出。
不知理解是否到位,還請不吝指教!

——————————————————————4.15 14:46————————————————————————
又仔細看了下,發現了這樣幾個發現:
第一,上面那個是V的離軌策略,下面是Q的離軌策略。
第二,在Q的離軌策略裏我們是R+γ(),注意括號裏是V,但是雖然是V,但是由於這是關於Q的,因此我們的V是用Q的求和表示的,所以是期望的形式。然後用Q更新V的值。
即可以理解爲用下一步的V更新這一步的Q

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章