lecture6:Policy OptimizatiobⅡ（策略優化）

原創

野生蘑菇菌

2020-05-13 08:31

兩條主線，一共有6種方法。
策略梯度和Q兩種

lecture6:Policy OptimizatiobⅡ（策略優化）

這兩堂課內容都是基於策略梯度，基於值函數的是選擇最大的Q。基於策略的會給出每個動作的概率，然後採樣就可以得到。

一、策略梯度方法

策略的目標是，從策略得到的獎勵儘可能大。

天然的baseline—V
然後爲了減小方差，引入baseline，天然的baseline—>V。

(1)、對於TD方法：
得到advantage Actor-Critic,這裏需要兩組參數。

這裏可以用TD error來重寫advantage function。
這樣只需要估計一組參數（V的參數）就可以，可以使訓練更加穩定。

(2)、更新V
對於線性方法來說

Ψ 當前狀態的特徵向量，如同《強化學習導論》中所說的線性方法，去進行更新。

策略函數
對於策略函數，也是根據選取的不同方法計算梯度。

下面分別是這四種的名稱

二、策略優化方法

1、Natural policy gradient

(1)、訓練過程不穩定，在監督學習中，樣本之間是iid的。但是在RL中是有相關性的，因此如果樣本之中有噪聲的化，後面的訓練也不好。會得到差得策略，然後再交互，就會生成差得樣本。。。
解決：
引入信賴域與Natural policy gradient

首先是關於Natural policy gradient(二階優化方法，一階的就是SGD)
之前對於參數優化使用梯度的方法，是在參數空間中找的方向

但是d對於模型（策略函數怎麼參數化的形式，比如策略用高斯擬合或者softmax擬合）採取什麼樣的函數是很敏感的（這裏是說受模型本身影響大（曲率）），更新d並沒有考慮對更新後模型的輸出（動作的概率）的影響。

我們想要從最終輸出的角度取更新參數。
這裏採取KL散度，來衡量兩個策略分佈之間的近似。

這樣就可以在兩個實際輸出策略相近的情況下更新參數，而不至於對於不同模型來說訓練不穩定。

KL散度理解中描述了什麼是KL散度，以及KL
散度的意義。

KL散度不能來描述度量，因爲他是不滿足三角不等式的，同是也是非對稱的。
但當d取足夠小的時候，可以近似距離的度量。

對他做泰勒展開，一階導數等於零，二階導數如下

F是KL散度的二階導數

入門神經網絡優化算法（五）：一文看懂二階優化算法Natural Gradient Descent（Fisher Information）
中關於這部分內容有比較詳細的解釋。

然後將這個帶約束優化問題，利用拉格朗日乘子法進行求解。

具體步驟是首先寫成拉格朗日乘子法的形式，然後對每一項進行泰勒展開。然後就是執行拉格朗日乘子法的最有一步，對d求導。

得到：

由F求逆在乘以原來的策略梯度。

這樣利用這樣更新後的梯度再進行更新。

其中F前面提到是KL散度的二階倒數，這裏其實可以直接通過score function求出。

這裏的E是指求average的意思。

他的幾何意義就是在測量模型的曲率，因此除以F就可以把模型的曲率去掉，遮掩就可以與模型沒有關係了。即採取怎麼樣的策略優化形式與怎麼有優化獨立開。

進一步理解的鏈接：

2、基於重要度採樣的離線策略TRPO

優化的策略和採集數據的策略是一個策略，因此simple effciency非常低。
解決：
使用基於重要度採樣的離線策略TRPO

重要度採樣：如果要估計一個從分佈p採樣的樣本的期望。但是不知道p分佈，只知道一些已知的分佈，比如高斯分佈。那麼我們可以利用已知的分佈去估計

這樣J中關於目標策略pi的獎勵的期望們就可以轉換從行爲策略採樣的獲得。

所以就可以把客觀函數變成基於重要度採樣的函數：

這樣的話就可以用之前採樣的數據進行優化了，也就是說可以不用真正的在線運行（因此這裏用old）

但是也會有一個問題，就是如果第二個pi很小，會導致比例很大，因此這裏引入一個限制。

因此爲了使兩個策略之間儘可能相近，又可以用上一節用到的KL散度。

這裏就引入了TRPO
帶約束的優化

這個限制就相當於一個球，這裏稱之爲信賴域。

對兩者都進行泰勒展開

這裏的H,就是之前的F

我們看到這裏更新的更新的公式中，並alpha，這裏關於這個的是變量delta。就相當與在圓中。

TRPO是在自然梯度優化的基礎上的。

這裏爲了避免求擬（複雜度高），因此使用以下技巧

爲了求x，也就是要求這樣遺憾函數的極致，進而導數等於0可以得到等式。

在得到這樣的一個無約束優化函數以後，可以調用共軛梯度法求解。

完整算法

論文中證明了J在更新中確實是增加的。

MM算法

希望找到原函數的最大化，但是原函數沒辦法求最大化，因此我們可以求解另一個函數的，得到交點以後，再更新另一個函數，最終，兩者的最大化的點就是一個點。
EM算法是MM算法的一個特例。

TRPO的計算量也是比較大的，H本身計算度大；在近似中也需要很多樣本；共軛梯度法也是需要比較大的計算量。

作業：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

《強化學習》——CH2 多臂賭博機筆記

超级无敌小小顺利

2020-06-16 04:05:31

Intra-Option策略梯度理論

給定一個馬爾可夫options集，其隨機的intra-options策略關於參數θ\thetaθ是可微的。關於θ\thetaθ和初始條件(s0,ω0)(s_0, \omega_0)(s0,ω0)的期望折扣彙報的梯度是： ∑s,

2020-07-03 17:26:04

Termination梯度理論

QΩ(s,ω)=∑aπω,θ(a∣s)QU(s,ω,a)(1) Q_{\Omega}(s, \omega)=\sum_{a} \pi_{\omega, \theta}(a | s) Q_{U}(s, \omega, a) \qua

2020-07-03 17:26:04

Compute the Optimal Policy & the Optimal Value 計算最佳策略和計算最佳價值

MDP Control 在這節內容裏我們不討論如何學習策略，我們僅僅探討計算最佳策略。計算最佳策略和計算最佳價值都屬於MDP Control。計算最佳策略 π∗(s)=argmaxπVπ(s)\pi^*(s)=\math

从流域到海域

2020-06-23 13:35:43

Monte Carlo Tree Search (MCTS) 蒙特·卡羅爾樹搜索

Monte Carlo Tree Search 爲什麼要學習MCTS 一部分原因是過去12年AI最大的成就莫過於Alpha Go，一個超越任何人類的圍棋玩家引入基於模型的RL思想和規劃(planning)的好處 Introu

从流域到海域

2020-06-23 13:35:43

《強化學習》中的第11章：基於函數逼近的離軌策略方法

前言：本次筆記對《強化學習（第二版）》第十一章進行概括性描述。以下概括都是基於我個人的理解，可能有誤，歡迎交流：[email protected]。總的來說，第11章學習體驗不好。可能是由於內容本身比較抽象，第11章屬於星標

PiperNest (同公众号)

2020-06-20 19:39:45

【開發隨筆】以強化學習環境 gym 庫爲例：爲什麼日常中我應該試圖標準化接口？

前言：這兩天在看 openAI 的 gym ，並嘗試用其測試自己寫的 Sarsa 。一塌糊塗，這裏來記錄下經驗教訓。官網對於 gym 的文檔不多，也不詳細，讀了 gym 的源碼，很直觀，也確實用不着什麼官方文檔。強化學習與傳統

PiperNest (同公众号)

2020-06-20 19:39:45

什麼樣的 python 可以可謂專業 PyPI 項目？剛剛學到三個概念：pep8、Sphinx、pytest與GitHub Action的集成

前言：最近在讀很火的 tianshou （基於 pytorch 提供深度強化學習算法的簡易接口），兩個清華本科生做的。很規範、很優秀的項目。做出來的項目，想要讓別人使用、維護、建立良性可持續社區，項目結構清晰、寫註釋、生成文

PiperNest (同公众号)

2020-06-20 19:39:45

《強化學習》中的第15章：神經科學

前言：本次筆記對《強化學習（第二版）》第十五章進行概括性描述。本次筆記內容依舊很少。神經科學是拓展部分，書上已經儘量將所舉例子語言簡化。小結大腦收益系統相關的神經通路很複雜，且沒有被人類完全理解。但發展與成果是有的：

PiperNest (同公众号)

2020-06-20 19:39:45

《強化學習》中的第14章：心理學

前言：本次筆記對《強化學習（第二版）》第十四章進行概括性描述。本次筆記內容很少。太多的縮寫與內容的非重要程度，讀不進去第十四章。小結心理學/神經科學的研究與強化學習的研究是相互推動的：早前我讀過一篇報道：神經科學團

PiperNest (同公众号)

2020-06-20 19:39:34

無需公式或代碼，用生活實例談談 AI 自動控制技術“強化學習”算法框架

不用公式、不用代碼，白話講講強化學習原理 The best way to learn is to teach others. 戰勝圍棋高手李世石的 AlphaGo ，稱霸星際爭霸2的 AIphaStar…這些先進的自動控制技術

PiperNest (同公众号)

2020-06-20 19:39:33

[強化學習] 多臂賭博機

寫在前面今天的博客主要是針對多臂賭博機中探索與利用問題的一些解決算法的講解。本文是由suttom的書學習而來，本文有些圖片來自來自David Silver的公開課，在此先聲明一下。多臂賭博機問題其實很早就有，那時候強化學習還沒

2020-06-20 02:32:32

[強化學習] 有限馬爾科夫決策過程

寫在前面強化學習系列博客主要學習sutton的書，有些內容來自Google DeepMind的David Silver的PPT，再此聲明。一、馬爾可夫過程如上圖所示，在強化學習的過程中，Agent與Environment一

2020-06-19 19:23:22

[強化學習] 概念、舉例、分類

寫在前面本文主要是學習sutton的書--強化學習緒論部分的整理，這裏爲了更好地理解，擴展了一些書上的內容。例子來源於網上，後續介紹的時候我會加上來源；還有部分PPT內容參考臺大李宏毅老師的PPT以及Google DeepMi

2020-06-19 18:20:19

強化學習--基礎篇

背景：由於返校的原因，手頭的筆記本無法完成在Windows下運行虛擬機的操作，所以選擇在Windows下進行一些學習。（不得不吐槽下“微星筆記本”）最近在看“強化學習”有關書籍，其中前幾章爲基礎知識。現做個總結：書中多采用

Chasing中的小强

2020-06-16 04:08:49

24小時熱門文章

最新文章

最新評論文章