lecture6:Policy OptimizatiobⅡ(策略優化)

兩條主線,一共有6種方法。
策略梯度和Q兩種

這兩堂課內容都是基於策略梯度,基於值函數的是選擇最大的Q。基於策略的會給出每個動作的概率,然後採樣就可以得到。

一、策略梯度方法

策略的目標是,從策略得到的獎勵儘可能大。
在這裏插入圖片描述
天然的baseline—V
然後爲了減小方差,引入baseline,天然的baseline—>V。
在這裏插入圖片描述
(1)、對於TD方法:
得到advantage Actor-Critic,這裏需要兩組參數。
在這裏插入圖片描述
這裏可以用TD error來重寫advantage function。
這樣只需要估計一組參數(V的參數)就可以,可以使訓練更加穩定。
在這裏插入圖片描述
(2)、更新V
對於線性方法來說
在這裏插入圖片描述
Ψ 當前狀態的特徵向量,如同《強化學習導論》中所說的線性方法,去進行更新。
在這裏插入圖片描述

策略函數
對於策略函數,也是根據選取的不同方法計算梯度。
在這裏插入圖片描述

下面分別是這四種的名稱
在這裏插入圖片描述

二、 策略優化方法

1、Natural policy gradient

(1)、訓練過程不穩定,在監督學習中,樣本之間是iid的。但是在RL中是有相關性的,因此如果樣本之中有噪聲的化,後面的訓練也不好。會得到差得策略,然後再交互,就會生成差得樣本。。。
解決:
引入信賴域與Natural policy gradient

首先是關於Natural policy gradient(二階優化方法,一階的就是SGD)
之前對於參數優化使用梯度的方法,是在參數空間中找的方向
在這裏插入圖片描述
但是d對於模型(策略函數怎麼參數化的形式,比如策略用高斯擬合或者softmax擬合)採取什麼樣的函數是很敏感的(這裏是說受模型本身影響大(曲率)),更新d並沒有考慮對更新後模型的輸出(動作的概率)的影響。

我們想要從最終輸出的角度取更新參數。
這裏採取KL散度,來衡量兩個策略分佈之間的近似。

這樣就可以在兩個實際輸出策略相近的情況下更新參數,而不至於對於不同模型來說訓練不穩定。

KL散度理解中描述了什麼是KL散度,以及KL
散度的意義。
在這裏插入圖片描述
KL散度不能來描述度量,因爲他是不滿足三角不等式的,同是也是非對稱的。
但當d取足夠小的時候,可以近似距離的度量。

對他做泰勒展開,一階導數等於零,二階導數如下
在這裏插入圖片描述
F是KL散度的二階導數
在這裏插入圖片描述
入門神經網絡優化算法(五):一文看懂二階優化算法Natural Gradient Descent(Fisher Information)
中關於這部分內容有比較詳細的解釋。

然後將這個帶約束優化問題,利用拉格朗日乘子法進行求解。

具體步驟是首先寫成拉格朗日乘子法的形式,然後對每一項進行泰勒展開。然後就是執行拉格朗日乘子法的最有一步,對d求導。

得到 :
在這裏插入圖片描述
由F求逆在乘以原來的策略梯度。

這樣利用這樣更新後的梯度再進行更新。

其中F前面提到是KL散度的二階倒數,這裏其實可以直接通過score function求出。
在這裏插入圖片描述
這裏的E是指求average的意思。

他的幾何意義就是在測量模型的曲率,因此除以F就可以把模型的曲率去掉,遮掩就可以與模型沒有關係了。即採取怎麼樣的策略優化形式與怎麼有優化獨立開。

進一步理解的鏈接:
在這裏插入圖片描述

2、基於重要度採樣的離線策略TRPO

優化的策略和採集數據的策略是一個策略,因此simple effciency非常低。
解決:
使用基於重要度採樣的離線策略TRPO

重要度採樣:如果要估計一個從分佈p採樣的樣本的期望。但是不知道p分佈,只知道一些已知的分佈,比如高斯分佈。那麼我們可以利用 已知的分佈去估計
在這裏插入圖片描述
這樣J中關於目標策略pi的獎勵的期望們就可以轉換從行爲策略採樣的獲得。

所以就可以把客觀函數變成基於重要度採樣的函數:
在這裏插入圖片描述
這樣的話就可以用之前採樣的數據進行優化了,也就是說可以不用真正的在線運行(因此這裏用old)

但是也會有一個問題,就是如果第二個pi很小,會導致比例很大,因此這裏引入一個限制。

因此爲了使兩個策略之間儘可能相近,又可以用上一節用到的KL散度。

在這裏插入圖片描述

這裏就引入了TRPO
帶約束的優化
在這裏插入圖片描述
這個限制就相當於一個球,這裏稱之爲信賴域。

在這裏插入圖片描述
對兩者都進行泰勒展開
在這裏插入圖片描述
這裏的H,就是之前的F
在這裏插入圖片描述
我們看到這裏更新的更新的公式中,並alpha,這裏關於這個的是變量delta。就相當與在圓中。

TRPO是在自然梯度優化的基礎上的。

這裏爲了避免求擬(複雜度高),因此使用以下技巧
在這裏插入圖片描述
爲了求x,也就是要求這樣遺憾函數的極致,進而導數等於0可以得到等式。

在得到這樣的一個無約束優化函數以後,可以調用共軛梯度法求解。

完整算法
在這裏插入圖片描述

論文中證明了J在更新中確實是增加的。

MM算法
在這裏插入圖片描述
希望找到原函數的最大化,但是原函數沒辦法求最大化,因此我們可以求解另一個函數的,得到交點以後,再更新另一個函數,最終,兩者的最大化的點就是一個點。
EM算法是MM算法的一個特例。

TRPO的計算量也是比較大的,H本身計算度大;在近似中也需要很多樣本;共軛梯度法也是需要比較大的計算量。

作業:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章