《強化學習導論》中關於帶控制變量的每次決策型方法的理解

原創

2020-04-19 11:03

從書中前面的介紹中可以看到，G通過加入一個控制變量，來達到降低方法的效果。雖然後面不知道怎麼在推導正式公式的時後沒有看到1-ρ的身影。。。（這裏如果有知道的小夥伴，請留下您的意見）。

對於後面的這個公式來說，我的理解是：
第一：Gt+1:h也是個遞歸，還沒展開。
第二：這個最終結果就類似樹回溯算法，只不過這裏用的是ρ。

這個地方稍微畫以下就可以看出。
不知理解是否到位，還請不吝指教！

——————————————————————4.15 14：46————————————————————————
又仔細看了下，發現了這樣幾個發現：
第一，上面那個是V的離軌策略，下面是Q的離軌策略。
第二，在Q的離軌策略裏我們是R+γ（），注意括號裏是V，但是雖然是V，但是由於這是關於Q的，因此我們的V是用Q的求和表示的，所以是期望的形式。然後用Q更新V的值。
即可以理解爲用下一步的V更新這一步的Q

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

《強化學習導論》中關於帶控制變量的每次決策型方法的理解

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

安裝roboware-studio及本地依賴問題解決

理論力學－－－主矢量和主矩

理論力學－－－虛位移

理論力學---約束及其分類

最優化--中科院實景課堂--第二節局部極小點+凸函數+無約束優化引言

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結