Policy Evaluation之Doubly Robust論文講解

● 每週一言

不用擔心自己有多努力,因爲每個人身邊總會有個人比你更努力。

導語

前一篇文章已經鋪墊好了增強學習評估的概念,幾乎所有對強化學習策略評估的方法都是基於重要性採樣展開。其中最經典的方法,莫過於ICML2011上出現的Doubly Robust estimation了。那麼,Doubly Robust estimation具體是如何評估RL的?又有什麼優勢?

Doubly Robust

paper link: http://www.icml-2011.org/papers/554_icmlpaper.pdf

Doubly Robust (DR, or doubly protected) estimation,其實早在上世紀後期就已經提出,在ICML2011這篇論文發表以前,DR estimation被廣泛運用於推論統計學,以及在線廣告投放中評估新特徵的影響。

那麼,在增強學習中,DR是如何運用的?論文在第二節 Problem Definition and Approach 中,給我們描述了問題場景:在有限的動作空間A中,按照某一個策略π可以採取一連串的動作,每一個動作a都能得到一個獎勵回報ra。

並定義了要解決的問題是什麼:對於策略評估而言,在上面描述的場景中,reward獎勵的分佈以及策略π都是未知的,那麼到底如何評估策略?

在DR之前,Policy Evaluation有兩種主流方法。第一種就是上一節我們講到的 Direct Method (DM)

下圖原文中的紅圈是關於上下文x(可以理解爲當前所處狀態)和動作a的獎勵回報函數,藍圈則是融入了策略函數π的獎勵回報函數。注意,以後所有頭上帶尖號的字母都代表估計值。可以看出,關於策略π的DM評估值V,取的是所有模擬樣本動作所得到的獎勵回報的平均值。直觀理解,就是每次動作後的價值獎勵期望,其中S是樣本空間。

誠然,如paper所言,如果獎勵回報函數估計的比較準,接近於無偏估計,那麼策略評估值理應接近真實值。但是,DM只學習了上下文、動作與獎勵回報的關係,卻並未考慮策略π輸出的動作分佈,這就導致了從樣本空間S中按照上述公式計算出來的評估值很可能是有偏的(biased)。

舉個極端的例子,假設樣本空間S一共就兩個樣本,一個是執行動作a得到了8分,另一個是執行動作b得到了2分。按照DM做Policy Evaluation,評估值是 (8 + 2) / 2 = 5 分。現在,假設我們從上帝視角知道了策略函數π執行動作a和b的概率分別是0.8和0.2,那麼真實的評估值應該是 0.8 * 8 + 0.2 * 2 = 6.8,DM評估的偏差爲 6.8 - 5 = 1.8。

很明顯,在這個例子中,如果是按照策略函數π進行的模擬採樣,而且樣本量足夠,同樣也會接近真實值。但是,現實情況的抽樣往往總是不那麼充分,而且樣本也是有限的。

在這樣有限的條件下,有沒有好一點的辦法來解決這個偏差?有,就是論文中提到的第二種方法 Inverse Propensity Score (IPS)。下圖原文中,p是上下文、歷史觀測值與動作的轉換函數,函數I(·)用於篩選當前策略π做出的動作。仔細看看,這個公式其實就是用了上節講的重要性採樣的思想,頭上帶尖號的p函數就是重要性權重。

只要p函數估計準確,換言之策略π所出的動作接近真實的動作分佈,那麼IPS的估計值就是無偏的(unbiased)。shift in action proportions是IPS方法的精髓,轉換動作分佈的作用其實就是使獎勵價值計算更加準確。

那麼,所有問題都解決了嗎?不是的。我們發現,估計的p值是評估函數的分母,這會有什麼問題?不妨試想一下,如果真實值很小,在p值估計過程中,微小的波動是不是就會導致估計值V的較大波動?數學意義上講,就是論文中所說的大方差,a much larger variance

我們不妨總結一下上述兩種方法:DM估計是有偏的,但是方差較小;IPS估計是無偏的,但是方差較大。

鋪墊到這,文章自然而然引出了DR估計。DR結合了DM和IPS兩種評估方法,一方面獲得了二者各自的優勢,另一方面又削弱了二者分別的劣勢。

根據上圖原文中的公式,通俗理解DR的思想就是:**在DM的基礎上,利用IPS思想,增量計算策略評估值。**紅線部分指出了DR的命名由來,只要DM和IPS其中之一的函數估計準確,DR就是有效的;如果二者的函數估計都準確,DR這個評估方法就是Doubly Robust(雙重魯棒)的了。

論文中用了兩節來專門分析偏差(bias)和方差(variance),由於篇幅關係,小鬥就不在此繼續講解。對證明推導感興趣的讀者,可以點開原文鏈接進一步閱讀。

限於理解能力有限,本文有講解謬誤之處還請留言交流指出。以上便是對Doubly Robust論文的講解,敬請期待下節內容。

結語

感謝各位的耐心閱讀,後續文章於每週日奉上,敬請期待。歡迎大家關注小鬥公衆號 對半獨白

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章