● 每週一言

不用擔心自己有多努力，因爲每個人身邊總會有個人比你更努力。

導語

前一篇文章已經鋪墊好了增強學習評估的概念，幾乎所有對強化學習策略評估的方法都是基於重要性採樣展開。其中最經典的方法，莫過於ICML2011上出現的Doubly Robust estimation了。那麼，Doubly Robust estimation具體是如何評估RL的？又有什麼優勢？

Doubly Robust

paper link: http://www.icml-2011.org/papers/554_icmlpaper.pdf

Doubly Robust (DR, or doubly protected) estimation，其實早在上世紀後期就已經提出，在ICML2011這篇論文發表以前，DR estimation被廣泛運用於推論統計學，以及在線廣告投放中評估新特徵的影響。

那麼，在增強學習中，DR是如何運用的？論文在第二節 Problem Definition and Approach 中，給我們描述了問題場景：在有限的動作空間A中，按照某一個策略π可以採取一連串的動作，每一個動作a都能得到一個獎勵回報ra。

並定義了要解決的問題是什麼：對於策略評估而言，在上面描述的場景中，reward獎勵的分佈以及策略π都是未知的，那麼到底如何評估策略？

在DR之前，Policy Evaluation有兩種主流方法。第一種就是上一節我們講到的 Direct Method (DM)。

下圖原文中的紅圈是關於上下文x（可以理解爲當前所處狀態）和動作a的獎勵回報函數，藍圈則是融入了策略函數π的獎勵回報函數。注意，以後所有頭上帶尖號的字母都代表估計值。可以看出，關於策略π的DM評估值V，取的是所有模擬樣本動作所得到的獎勵回報的平均值。直觀理解，就是每次動作後的價值獎勵期望，其中S是樣本空間。

誠然，如paper所言，如果獎勵回報函數估計的比較準，接近於無偏估計，那麼策略評估值理應接近真實值。但是，DM只學習了上下文、動作與獎勵回報的關係，卻並未考慮策略π輸出的動作分佈，這就導致了從樣本空間S中按照上述公式計算出來的評估值很可能是有偏的（biased）。

舉個極端的例子，假設樣本空間S一共就兩個樣本，一個是執行動作a得到了8分，另一個是執行動作b得到了2分。按照DM做Policy Evaluation，評估值是 (8 + 2) / 2 = 5 分。現在，假設我們從上帝視角知道了策略函數π執行動作a和b的概率分別是0.8和0.2，那麼真實的評估值應該是 0.8 * 8 + 0.2 * 2 = 6.8，DM評估的偏差爲 6.8 - 5 = 1.8。

很明顯，在這個例子中，如果是按照策略函數π進行的模擬採樣，而且樣本量足夠，同樣也會接近真實值。但是，現實情況的抽樣往往總是不那麼充分，而且樣本也是有限的。

在這樣有限的條件下，有沒有好一點的辦法來解決這個偏差？有，就是論文中提到的第二種方法 Inverse Propensity Score (IPS)。下圖原文中，p是上下文、歷史觀測值與動作的轉換函數，函數I(·)用於篩選當前策略π做出的動作。仔細看看，這個公式其實就是用了上節講的重要性採樣的思想，頭上帶尖號的p函數就是重要性權重。

只要p函數估計準確，換言之策略π所出的動作接近真實的動作分佈，那麼IPS的估計值就是無偏的（unbiased）。shift in action proportions是IPS方法的精髓，轉換動作分佈的作用其實就是使獎勵價值計算更加準確。

那麼，所有問題都解決了嗎？不是的。我們發現，估計的p值是評估函數的分母，這會有什麼問題？不妨試想一下，如果真實值很小，在p值估計過程中，微小的波動是不是就會導致估計值V的較大波動？數學意義上講，就是論文中所說的大方差，a much larger variance。

我們不妨總結一下上述兩種方法：DM估計是有偏的，但是方差較小；IPS估計是無偏的，但是方差較大。

鋪墊到這，文章自然而然引出了DR估計。DR結合了DM和IPS兩種評估方法，一方面獲得了二者各自的優勢，另一方面又削弱了二者分別的劣勢。

根據上圖原文中的公式，通俗理解DR的思想就是：**在DM的基礎上，利用IPS思想，增量計算策略評估值。**紅線部分指出了DR的命名由來，只要DM和IPS其中之一的函數估計準確，DR就是有效的；如果二者的函數估計都準確，DR這個評估方法就是Doubly Robust（雙重魯棒）的了。

論文中用了兩節來專門分析偏差（bias）和方差（variance），由於篇幅關係，小鬥就不在此繼續講解。對證明推導感興趣的讀者，可以點開原文鏈接進一步閱讀。

限於理解能力有限，本文有講解謬誤之處還請留言交流指出。以上便是對Doubly Robust論文的講解，敬請期待下節內容。

結語

感謝各位的耐心閱讀，後續文章於每週日奉上，敬請期待。歡迎大家關注小鬥公衆號 對半獨白！

Policy Evaluation之Doubly Robust論文講解

● 每週一言

導語

Doubly Robust

結語

機器學習方法篇(10)------隨機森林

NOIP回憶錄

二分查找與補丁規避

機器學習方法篇(12)------拉格朗日乘子法

機器學習方法篇(11)------SVM入門

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結