必讀論文|20篇強化學習研究必讀論文速遞

強化學習是機器學習中的一個領域，強調如何基於環境而行動，以取得最大化的預期利益。其靈感來源於心理學中的行爲主義理論，即有機體如何在環境給予的獎勵或懲罰的刺激下，逐步形成對刺激的預期，產生能獲得最大利益的習慣性行爲。

本期Aminer特推出20篇強化學習必讀論文。

1. Emergent Tool Use From Multi-Agent Autocurricula

鏈接：https://www.aminer.cn/pub/5e5e18bb93d709897ce2b772/emergent-tool-use-from-multi-agent-autocurricula
作者：Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch

本篇論文作者前六位來自Open AI, 第七位作者來自Google Brain. OpenAI是在遊戲開發行業中使用機器學習的領先者之一。此論文展示了一個遊戲AI演示，它學習如何在捉迷藏遊戲中形成自己的獲勝策略。通過隱式的課程學習中，在一個具備互動和競爭機制的環境中，不同的智能體之間可以持續地找到新任務，它們也就可以持續地學會新的策略。

2. Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables

鏈接：https://www.aminer.cn/pub/5cede10dda562983788eda33/efficient-off-policy-meta-reinforcement-learning-via-probabilistic-context-variables
作者：Kate Rakelly, Aurick Zhou, Deirdre Quillen, Chelsea Finn, Sergey Levine

這篇論文由Berkeley Artificial Intelligence Research (BAIR) Lab 發表在ICML 2019上。主要貢獻在於提出了一種新的視角來解決元學習中任務的學習樣本利用率不高的問題。這篇工作致力於用task encoding的方法來解決如何從過去學習的任務中針對新的任務獲取有效的信息，以及如何對新任務的不確定性做出更準確的判斷的問題。此篇論文將task inference與learning過程分離的點子來自於POMDPs的探索過程，通過這樣的分離，使得meta-RL中對樣本的利用率提高。

3. Guided Meta-Policy Search

鏈接：https://www.aminer.cn/pub/5cede0e6da562983788c4d61/guided-meta-policy-search
作者：Russell Mendonca, Abhishek Gupta, Rosen Kralev, Pieter Abbeel, Sergey Levine, Chelsea Finn

傳統的元強化學習方法在meta-training過程中需要大量的數據，因爲很多是on-policy的。在許多問題中很難滿足。本篇論文探索在元學習階段（learn a RL procedure；外循環）提供監督信息，實際使用有監督的模仿學習，這樣可以充分利用off-policy數據，內循環仍然是一個RL學習。模仿的專家策略可以是標準強化學習方法自動產生的，這樣實際上不需要額外的監督假設。如果能結合人類的範例，可以更有效地訓練。在meta-training階段使用範例能在元優化階段有效幫助探索，使其在稀疏獎勵環境下更有效地學習。

4. Using a Logarithmic Mapping to Enable Lower Discount Factors in Reinforcement Learning

鏈接：https://www.aminer.cn/pub/5d04e900da56295d08dd2acf/using-a-logarithmic-mapping-to-enable-lower-discount-factors-in-reinforcement-learning
作者：Harm van Seijen, Mehdi Fatemi, Arash Tavakoli

爲了更好地瞭解折現係數的不同方式是如何影響強化學習的優化過程，本篇論文設計了一套單獨研究每種效果的實驗。研究表明傳統的觀點，即低折扣因子表現欠佳是由（太）小的行動差距引起需要修訂。研究提出狀態空間中行動差距的規模差異是主要的原因，並提出一種新的方法來，以幫助近似的強化學習方法啓用較低的折扣因子。

5. Distributional Reinforcement Learning for Efficient Exploration

鏈接：https://www.aminer.cn/pub/5cf48a29da56291d5828a61c/distributional-reinforcement-learning-for-efficient-exploration
作者：Borislav Mavrin, Shangtong Zhang, Hengshuai Yao, Linglong Kong, Kaiwen Wu, Yaoliang Yu

在分佈強化學習中，價值函數模型的估計分佈具有參數和固有的不確定性。本篇論文具有兩個組成部分的深度強化學習提供一種新穎且有效的探索方法。首先是通過衰減的時間表，以抑制內在的不確定性。第二是探索根據上分位數計算的獎金學習分配。在Atari 2600遊戲中，研究的14個方法中有12個方法優於QR-DQN硬遊戲。

6.How to Combine Tree-Search Methods in Reinforcement Learning

鏈接：https://www.aminer.cn/pub/5bdc31b417c44a1f58a0b3ae/how-to-combine-tree-search-methods-in-reinforcement-learning
作者：Yonathan Efroni, Gal Dalal, Bruno Scherrer, Shie Mannor

本篇論文作者來自以色列理工學院、法國國家信息與自動化研究所。獲得2019年AAAI會議的最佳論文獎。有限時域前瞻策略（Finite-horizon lookahead policies）被大量用於強化學習，並得到了令人印象深刻的實證成果。通常，前瞻策略是使用特定的規劃方法實現的，例如蒙特卡羅樹搜索（例如在 AlphaZero 中）。這些實現中有一種合理的做法是將規劃問題視爲樹搜索，其僅在葉節點處備份值，而在根節點下獲取的信息不用於更新策略。本文對這種方法的有效性提出質疑。即，後一個過程通常是非收縮的，並且其收斂性不能保證。本篇論文提出使用最佳樹路徑的返回值來備份根節點的後代的值。

7. Better Exploration with Optimistic Actor Critic

鏈接：https://www.aminer.cn/pub/5db929e347c8f766461fc449/better-exploration-with-optimistic-actor-critic
作者：Kamil Ciosek, Quan Vuong, Robert Loftin, Katja Hofmann

本文是一個對actor-critic算法的改進，這是一種無模型的強化學習算法，它被用於解決連續的控制任務。但是由於它的低樣本效率，難以被廣泛採用。因此文章將它的問題總結成兩個現象：一是悲觀的不探索現象，即由於貪婪actor的更新來源於一個悲觀的critic的估計而導致的不選擇agent不瞭解的動作的情況；第二個是方向的未知性，即總是以同樣的可能性在與當前平均值左右相反的兩個方向去採樣行動，這種浪費的現象。文章提出一種新算法，被稱爲OAC，它使用兩個一高一低的置信區間進行估計state-action的value函數，高的用於指導探索，低的用於防止過擬合。文章面對的問題是有挑戰性的連續控制任務。實驗結果證明，使用面對不確定性的樂觀原則可以提高策略梯度算法的抽樣效率同時幾乎不增加額外的計算負擔。

8. Policy Certificates: Towards Accountable Reinforcement Learning

鏈接：https://www.aminer.cn/pub/5d9edbfa47c8f7664602e444/policy-certificates-towards-accountable-reinforcement-learning
作者：Christoph Dann, Lihong Li, Wei Wei, Emma Brunskill

當前強化學習算法很少在執行之前提供有關其當前策略質量的信息，本篇論文提出算法輸出策略證書的方法來解決這一問題，以允許人類在認證質量不滿意時進行干預。

9. Rainbow: Combining Improvements in Deep Reinforcement Learning

鏈接：https://www.aminer.cn/pub/5a260c8117c44a4ba8a30ecc/rainbow-combining-improvements-in-deep-reinforcement-learning
作者：Matteo Hessel, Joseph Modayil, Hado van Hasselt, Tom Schaul, Georg Ostrovski, Will Dabney, Daniel Horgan, Bilal Piot, Mohammad Gheshlaghi Azar, David Silver

本篇論文的核心思想在於將深度Q-Networks 算法的改進方法結合在一起，形成一個全能的網絡，被命名爲Rainbow。

10. Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models