強化學習路在何方

一、深度強化學習的泡沫

2015年，DeepMind的Volodymyr Mnih等研究員在《自然》雜誌上發表論文Human-level control through deep reinforcement learning[1]，該論文提出了一個結合深度學習（DL）技術和強化學習（RL）思想的模型Deep Q-Network(DQN)，在Atari遊戲平臺上展示出超越人類水平的表現。自此以後，結合DL與RL的深度強化學習（Deep Reinforcement Learning, DRL）迅速成爲人工智能界的焦點。

過去三年間，DRL算法在不同領域大顯神通：在視頻遊戲[1]、棋類遊戲上打敗人類頂尖高手[2,3]；控制複雜的機械進行操作[4]；調配網絡資源[5]；爲數據中心大幅節能[6]；甚至對機器學習算法自動調參[7]。各大高校和企業紛紛參與其中，提出了眼花繚亂的DRL算法和應用。可以說，過去三年是DRL的爆紅期。DeepMind負責AlphaGo項目的研究員David Silver喊出“AI = RL + DL”，認爲結合了DL的表示能力與RL的推理能力的DRL將會是人工智能的終極答案。

RL論文數量迅速增長[8]

1.1 DRL的可復現性危機

然而，研究人員在最近半年開始了對DRL的反思。由於發表的文獻中往往不提供重要參數設置和工程解決方案的細節，很多算法都難以復現。2017年9月，著名RL專家Doina Precup和Joelle Pineau所領導的的研究組發表了論文Deep Reinforcement Learning that Matters[8]，直指當前DRL領域論文數量多卻水分大、實驗難以復現等問題。該文在學術界和工業界引發熱烈反響。很多人對此表示認同，並對DRL的實際能力產生強烈懷疑。

其實，這並非Precup& Pineau研究組第一次對DRL發難。早在2個月前，該研究組就通過充足的實驗對造成DRL算法難以復現的多個要素加以研究，並將研究成果撰寫成文Reproducibility of Benchmarked Deep Reinforcement Learning Tasks for Continuous Control[9]。同年8月，他們在ICML 2017上作了題爲“Reproducibility of Policy Gradient Methods for Continuous Control”的報告[10]，通過實例詳細展示了在復現多個基於策略梯度的算法的過程中，由於種種不確定性因素導致的復現困難。12月，在萬衆矚目的NIPS 2017 DRL專題研討會上，Joelle Pineau受邀作了題爲“Reproducibility of DRL and Beyond”的報告[11]。報告中，Pineau先介紹了當前科研領域的“可復現性危機” ：在《自然》雜誌的一項調查中，90%的被訪者認爲“可復現性”問題是科研領域存在的危機，其中，52%的被訪者認爲這個問題很嚴重。在另一項調查中，不同領域的研究者幾乎都有很高的比例無法復現他人甚至自己過去的實驗。可見“可復現性危機”有多麼嚴峻！Pineau針對機器學習領域發起的一項調研顯示，同樣有90%的研究者認識到了這個危機。

機器學習領域存在嚴重的“可復現性危機”[11]

隨後，針對DRL領域，Pineau展示了該研究組對當前不同DRL算法的大量可復現性實驗。實驗結果表明，不同DRL算法在不同任務、不同超參數、不同隨機種子下的效果大相徑庭。在報告後半段，Pineau呼籲學界關注“可復現性危機”這一問題，並根據她的調研結果，提出了12條檢驗算法“可復現性”的準則，宣佈計劃在ICLR 2018開始舉辦“可復現實驗挑戰賽”（“可復現危機”在其他機器學習領域也受到了關注，ICML 2017已經舉辦了Reproducibility in Machine Learning Workshop，並將在今年繼續舉辦第二屆），旨在鼓勵研究者做出真正紮實的工作，抑制機器學習領域的泡沫。Pineau & Precup研究組的這一系列研究獲得了廣泛關注。

Pineau基於大量調查提出的檢驗算法“可復現性”準則[11]

1.2 DRL研究存在多少坑？

同樣在12月，Reddit論壇上也開展了關於機器學習不正之風的熱烈討論[12]。有人點名指出，某些DRL代表性算法之所以在模擬器中取得了優秀卻難以復現的表現，是因爲作者們涉嫌在實驗中修改模擬器的物理模型，卻在論文中對此避而不談。

對現有DRL算法的批判浪潮仍舊不斷涌來。2018年的情人節當天，曾經就讀於伯克利人工智能研究實驗室（Berkeley Artificial Intelligence Research Lab, BAIR）的Alexirpan通過一篇博文Deep Reinforcement Learning Doesn't Work Yet[13]給DRL圈送來了一份苦澀的禮物。他在文中通過多個例子，從實驗角度總結了DRL算法存在的幾大問題：

樣本利用率非常低；

最終表現不夠好，經常比不過基於模型的方法；

好的獎勵函數難以設計；

難以平衡“探索”和“利用”,以致算法陷入局部極小；

對環境的過擬合；

災難性的不穩定性…

雖然作者在文章結尾試着提出DRL下一步應該解決的一系列問題，很多人還是把這篇文章看做DRL的“勸退文”。幾天後，GIT的博士生Himanshu Sahni發表博文Reinforcement Learning never worked, and 'deep' only helped a bit與之呼應[14]，在贊同Alexirpan的觀點同時，指出好的獎勵函數難以設計和難以平衡“探索”和“利用”以致算法陷入局部極小是RL的固有缺陷。

另一位DRL研究者Matthew Rahtz則通過講述自己試圖復現一個DRL算法的坎坷歷程來回應Alexirpan，讓大家深刻體會了復現DRL算法有多麼難[15]。半年前，Rahtz出於研究興趣，選擇對OpenAI的論文Deep Reinforcement Learning from Human Preferences進行復現。在復現的過程中，幾乎踩了Alexirpan總結的所有的坑。他認爲復現DRL算法與其是一個工程問題，更不如說像一個數學問題。“它更像是你在解決一個謎題，沒有規律可循，唯一的方法是不斷嘗試，直到靈感出現徹底搞明白。……很多看上去無關緊要的小細節成了唯一的線索……做好每次卡住好幾周的準備。”Rahtz在復現的過程中積累了很多寶貴的工程經驗，但整個過程的難度還是讓他花費了大量的金錢以及時間。他充分調動不同的計算資源，包括學校的機房資源、Google雲計算引擎和FloydHub，總共花費高達850美元。可就算這樣，原定於3個月完成的項目，最終用了8個月，其中大量時間用在調試上。

復現DRL算法的實際時間遠多於預計時間[15]

Rahtz最終實現了復現論文的目標。他的博文除了給讀者詳細總結了一路走來的各種寶貴工程經驗，更讓大家從一個具體事例感受到了DRL研究實際上存在多大的泡沫、有多少的坑。有人評論到，“DRL的成功可能不是因爲其真的有效，而是因爲人們花了大力氣。”

很多著名學者也紛紛加入討論。目前普遍的觀點是，DRL可能有AI領域最大的泡沫。機器學習專家Jacob Andreas發了一條意味深長的tweet說：

Jacob Andreas對DRL的吐槽

DRL的成功歸因於它是機器學習界中唯一一種允許在測試集上訓練的方法。

從Pineau & Precup打響第一槍到現在的1年多時間裏，DRL被錘得千瘡百孔，從萬衆矚目到被普遍看衰。就在筆者準備投稿這篇文章的時候，Pineau又受邀在ICLR 2018上作了一個題爲 Reproducibility, Reusability, and Robustness in DRL的報告[16]，並且正式開始舉辦“可復現實驗挑戰賽”。看來學界對DRL的吐槽將會持續，負面評論還將持續發酵。那麼， DRL的問題根結在哪裏？前景真的如此黯淡嗎？如果不與深度學習結合，RL的出路又在哪裏？

在大家紛紛吐槽DRL的時候，著名的優化專家 Ben Recht，從另一個角度給出一番分析。

二、免模型強化學習的本質缺陷

RL算法可以分爲基於模型的方法（Model-based）與免模型的方法（Model-free）。前者主要發展自最優控制領域。通常先通過高斯過程（GP）或貝葉斯網絡（BN）等工具針對具體問題建立模型，然後再通過機器學習的方法或最優控制的方法，如模型預測控制（MPC）、線性二次調節器（LQR）、線性二次高斯（LQG）、迭代學習控制（ICL）等進行求解。而後者更多地發展自機器學習領域，屬於數據驅動的方法。算法通過大量採樣，估計代理的狀態、動作的值函數或回報函數，從而優化動作策略。

從年初至今，Ben Recht連發了13篇博文，從控制與優化的視角，重點探討了RL中的免模型方法[18]。Recht指出免模型方法自身存在以下幾大缺陷：

基於模型 vs. 免模型 [17]

1. 免模型方法無法從不帶反饋信號的樣本中學習，而反饋本身就是稀疏的，因此免模型方向樣本利用率很低，而數據驅動的方法則需要大量採樣。比如在Atari平臺上的《Space Invader》和《Seaquest》遊戲中，智能體所獲得的分數會隨訓練數據增加而增加。利用免模型DRL方法可能需要 2 億幀畫面才能學到比較好的效果。AlphaGo 最早在 Nature 公佈的版本也需要 3000 萬個盤面進行訓練。而但凡與機械控制相關的問題，訓練數據遠不如視頻圖像這樣的數據容易獲取，因此只能在模擬器中進行訓練。而模擬器與現實世界間的Reality Gap，直接限制了訓練自其中算法的泛化性能。另外，數據的稀缺性也影響了其與DL技術的結合。

2. 免模型方法不對具體問題進行建模，而是嘗試用一個通用的算法解決所有問題。而基於模型的方法則通過針對特定問題建立模型，充分利用了問題固有的信息。免模型方法在追求通用性的同時放棄這些富有價值的信息。

3. 基於模型的方法針對問題建立動力學模型，這個模型具有解釋性。而免模型方法因爲沒有模型，解釋性不強，調試困難。

4. 相比基於模型的方法，尤其是基於簡單線性模型的方法，免模型方法不夠穩定，在訓練中極易發散。

爲了證實以上觀點，Recht將一個簡單的基於LQR的隨機搜索方法與最好的免模型方法在MuJoCo實驗環境上進行了實驗對比。在採樣率相近的情況下，基於模型的隨機搜索算法的計算效率至少比免模型方法高15倍[19]。

基於模型的隨機搜索方法ARS吊打一衆免模型方法[19]

通過Recht的分析，我們似乎找到了DRL問題的根結。近三年在機器學習領域大火的DRL算法，多將免模型方法與DL結合，而免模型算法的天然缺陷，恰好與Alexirpan總結的DRL幾大問題相對應（見上文）。

看來，DRL的病根多半在採用了免模型方法上。爲什麼多數DRL的工作都是基於免模型方法呢？筆者認爲有幾個原因。第一，免模型的方法相對簡單直觀，開源實現豐富，比較容易上手，從而吸引了更多的學者進行研究，有更大可能做出突破性的工作，如DQN和AlphaGo系列。第二，當前RL的發展還處於初級階段，學界的研究重點還是集中在環境是確定的、靜態的，狀態主要是離散的、靜態的、完全可觀察的，反饋也是確定的問題（如Atari遊戲）上。針對這種相對“簡單”、基礎、通用的問題，免模型方法本身很合適。最後，在“AI = RL + DL”這一觀點的鼓動下，學界高估了DRL的能力。DQN展示出的令人興奮的能力使得很多人圍繞着DQN進行拓展，創造出了一系列同樣屬於免模型的工作。

絕大多數DRL方法是對DQN的擴展，屬於免模型方法[20]

那麼，DRL是不是應該拋棄免模型方法，擁抱基於模型的方法呢？

三、基於模型或免模型，問題沒那麼簡單

3.1 基於模型的方法，未來潛力巨大

基於模型的方法一般先從數據中學習模型，然後基於學到的模型對策略進行優化。學習模型的過程和控制論中的系統參數辨識類似。因爲模型的存在，基於模型的方法可以充分利用每一個樣本來逼近模型，數據利用率極大提高。基於模型的方法則在一些控制問題中，相比於免模型方法，通常有10^2級的採樣率提升。此外，學到的模型往往對環境的變化魯棒,當遇到新環境時，算法可以依靠已學到的模型做推理，具有很好的泛化性能。

基於模型的方法具有更高採樣率[22]

此外，基於模型的方法還與潛力巨大的預測學習（Predictive Learning）緊密相關。由於建立了模型，本身就可以通過模型預測未來，這與Predictive Learning的需求不謀而合。其實，Yann LeCun在廣受關注的NIPS 2016主題報告上介紹Predictive Learning時，也是以基於模型的方法作爲例子的[21]。筆者認爲，基於模型的RL方法可能是實現Predictive Learning的重要技術之一。

這樣看來，基於模型的方法似乎更有前途。但天下沒有免費的午餐，模型的存在也帶來了若干問題。

3.2 免模型方法，依舊是第一選擇

基於模型的DRL方法相對而言不那麼簡單直觀，RL與DL的結合方式相對更復雜，設計難度更高。目前基於模型的DRL方法通常用高斯過程、貝葉斯網絡或概率神經網絡（PNN）來構建模型，典型的如David Silver在2016年提出的Predictron模型[23]。另外一些工作，如Probabilistic Inference for Learning COntrol (PILCO)[24]，本身不基於神經網絡，不過有與BN結合的擴展版本。而Guided Policy Search (GPS) 雖然在最優控制器的優化中使用了神經網絡，但模型並不依賴神經網絡[25]。此外還有一些模型將神經網絡與模型耦合在一起[26]。這些工作不像免模型DRL方法那樣直觀且自然，DL所起的作用也各有不同。

除此之外，基於模型的方法也還存在若干自身缺陷：

1. 針對無法建模的問題束手無策。有些領域，比如NLP，存在大量難以歸納成模型的任務。在這種場景下，只能通過諸如R-max算法這樣的方法先與環境交互，計算出一個模型爲後續使用。但是這種方法的複雜度一般很高。近期有一些工作結合預測學習建立模型，部分地解決了建模難的問題，這一思路逐漸成爲了研究熱點。

2. 建模會帶來誤差，而且誤差往往隨着算法與環境的迭代交互越來越大，使得算法難以保證收斂到最優解。

3. 模型缺乏通用性，每次換一個問題，就要重新建模。

針對以上幾點，免模型方法都有相對優勢：對現實中非常多的無法建模的問題以及模仿學習問題，免模型算法仍是最好的選擇。並且，免模型方法在理論上具備漸近收斂性，經過無數次與環境的交互可以保證得到最優解，這是基於模型的方法很難獲得的結果。最後，免模型最大的優勢就是具備非常好的通用性。事實上，在處理真正困難的問題時，免模型方法的效果通常更好。Recht也在博文中指出，控制領域很有效的MPC算法其實與Q-Learning這樣的免模型方法非常相關[18]。

基於模型的方法與免模型的方法的區別其實也可以看做基於知識的方法與基於統計的方法的區別。總體來講，兩種方法各有千秋，很難說其中一種方法優於另一種。在RL領域中，免模型算法只佔很少一部分，但基於歷史原因，當前免模型的DRL方法發展迅速數量龐大，而基於模型的DRL方法則相對較少。筆者認爲，我們可以考慮多做一些基於模型的DRL方面的工作，克服當前DRL存在的諸多問題。此外，還可以多研究結合基於模型方法與免模型方法的半模型方法，兼具兩種方法的優勢。這方面經典的工作有RL泰斗Rich Sutton提出的Dyna框架 [27] 和其弟子David Silver提出的Dyna-2框架[28]。

通過以上討論，我們似乎對DRL目前的困境找到了出路。但其實，造成當前DRL困境的原因遠不止這些。

3.3 不僅僅是模型與否的問題

上文提到Recht使用基於隨機搜索的方法吊打了免模型方法，似乎宣判了免模型方法的死刑。但其實這個對比並不公平。

2017年3月，機器學習專家Sham Kakade的研究組發表文章Towards Generalization and Simplicity in Continuous Control，試圖探尋針對連續控制問題的簡單通用的解法 [29] 。他們發現當前的模擬器存在非常大的問題，經過調試的線性策略就已經可以取得非常好的效果——這樣的模擬器實在過於粗糙，難怪基於隨機搜索的方法可以在同樣的模擬器上戰勝免模型方法！

可見目前RL領域的實驗平臺還非常不成熟，在這樣的測試環境中的實驗實驗結果沒有足夠的說服力。很多研究結論都未必可信，因爲好性能的取得或許僅僅是因爲利用了模擬器的bugs。此外，一些學者指出當前RL算法的性能評判準則也不科學。Ben Recht和Sham Kakade都對RL的發展提出了多項具體建議，包括測試環境、基準算法、衡量標準等[18,29]。可見RL領域還有太多需要改進和規範化。

那麼，RL接下來該如何突破呢？

四、重新審視強化學習

對DRL和免模型RL的質疑與討論，讓我們可以重新審視RL，這對RL今後的發展大有裨益。

4.1 重新審視DRL的研究與應用

DQN和AlphaGo系列工作給人留下深刻印象，但是這兩種任務本質上其實相對“簡單”。因爲這些任務的環境是確定的、靜態的，狀態主要是離散的、靜態的、完全可觀察的，反饋是確定的，代理也是單一的。目前DRL在解決部分可見狀態任務（如StarCraft），狀態連續的任務（如機械控制任務），動態反饋任務和多代理任務中還沒取得令人驚歎的突破。

當前大量的DRL研究，尤其是應用於計算機視覺領域任務的研究中，很多都是將計算機視覺的某一個基於DL的任務強行構造成RL問題進行求解，其結果往往不如傳統方法好。這樣的研究方式造成DRL領域論文數量暴增、水分巨大。作爲DRL的研究者，我們不應該找一個DL任務強行將其RL化，而是應該針對一些天然適合RL處理的任務，嘗試通過引入DL來提升現有方法在目標識別環節或函數逼近環節上的能力。

DRL取得成功的任務本質上相對簡單[30]

在計算機視覺任務中，通過結合DL獲得良好的特徵表達或函數逼近是非常自然的思路。但在有些領域，DL未必能發揮強大的特徵提取作用，也未必被用於函數逼近。比如DL至今在機器人領域最多起到感知作用，而無法取代基於力學分析的方法。雖然有一些將DRL應用於物體抓取等現實世界的機械控制任務上並取得成功的案例，如QT-Opt[70]，但往往需要大量的調試和訓練時間。我們應該清晰地認識DRL算法的應用特點：因爲其輸出的隨機性，當前的DRL算法更多地被用在模擬器而非真實環境中。而當前具有實用價值且只需運行於模擬器中的任務主要有三類，即視頻遊戲、棋類遊戲和自動機器學習（AutoML，比如谷歌的AutoML Vision）。這並不是說DRL的應用被困在模擬器中——如果能針對某一具體問題，解決模擬器與真實世界間的差異，則可以發揮DRL的強大威力。最近Google的研究員就針對四足機器人運動問題，通過大力改進模擬器，使得在模擬器中訓練的運動策略可以完美遷移到真實世界中，取得了令人驚豔的效果[71]。不過，考慮到RL算法的不穩定性，在實際應用中不應盲目追求端到端的解決方案，而可以考慮將特徵提取（DL）與決策（RL）分開，從而獲得更好的解釋性與穩定性。此外，模塊化RL（將RL算法封裝成一個模塊）以及將RL與其他模型融合，將在實際應用中有廣闊前景。而如何通過DL學習一個合適於作爲RL模塊輸入的表示，也值得研究。

4.2 重新審視RL的研究

機器學習是個跨學科的研究領域，而RL則是其中跨學科性質非常顯著的一個分支。RL理論的發展受到生理學、神經科學和最優控制等領域的啓發，現在依舊在很多相關領域被研究。在控制理論、機器人學、運籌學、經濟學等領域內部，依舊有很多的學者投身RL的研究，類似的概念或算法往往在不同的領域被重新發明，起了不同的名字。

RL的發展受到多個學科的影響[31]

Princeton大學著名的運籌學專家Warren Powell曾經寫了一篇題爲AI, OR and Control Theory: A Rosetta Stone for Stochastic Optimization的文章，整理了RL中同一個概念、算法在AI、OR（運籌學）和Control Theory（控制理論）中各自對應的名稱，打通了不同領域間的隔閡 [32] 。由於各種學科各自的特點，不同領域的RL研究又獨具特色，這使得RL的研究可以充分借鑑不同領域的思想精華。

在這裏，筆者根據自身對RL的理解，試着總結一些值得研究的方向：

1. 基於模型的方法。如上文所述，基於模型的方法不僅能大幅降低採樣需求，還可以通過學習任務的動力學模型，爲預測學習打下基礎。

2. 提高免模型方法的數據利用率和擴展性。這是免模型學習的兩處硬傷，也是Rich Sutton的終極研究目標。這個領域很艱難，但是任何有意義的突破也將帶來極大價值。

3. 更高效的探索策略（Exploration Strategies）。平衡“探索”與“利用”是RL的本質問題，這需要我們設計更加高效的探索策略。除了若干經典的算法如Softmax、ϵ-Greedy[1]、UCB[72]和Thompson Sampling[73]等，近期學界陸續提出了大批新算法，如Intrinsic Motivation [74]、Curiosity-driven Exploration[75]、Count-based Exploration [76]等。其實這些“新”算法的思想不少早在80年代就已出現[77]，而與DL的有機結合使它們重新得到重視。此外，OpenAI與DeepMind先後提出通過在策略參數[78]和神經網絡權重[79]上引入噪聲來提升探索策略, 開闢了一個新方向。

4. 與模仿學習（Imitation Learning, IL）結合。機器學習與自動駕駛領域最早的成功案例ALVINN[33]就是基於IL；當前RL領域最頂級的學者Pieter Abbeel在跟隨Andrew Ng讀博士時候,設計的通過IL控制直升機的算法[34]成爲IL領域的代表性工作。2016年，英偉達提出的端到端自動駕駛系統也是通過IL進行學習[68]。而AlphaGo的學習方式也是IL。IL介於RL與監督學習之間，兼具兩者的優勢，既能更快地得到反饋、更快地收斂，又有推理能力，很有研究價值。關於IL的介紹，可以參見[35]這篇綜述。

5. 獎賞塑形（Reward Shaping）。獎賞即反饋，其對RL算法性能的影響是巨大的。Alexirpan的博文中已經展示了沒有精心設計的反饋信號會讓RL算法產生多麼差的結果。設計好的反饋信號一直是RL領域的研究熱點。近年來涌現出很多基於“好奇心”的RL算法和層級RL算法，這兩類算法的思路都是在模型訓練的過程中插入反饋信號，從而部分地克服了反饋過於稀疏的問題。另一種思路是學習反饋函數，這是逆強化學習（Inverse RL, IRL）的主要方式之一。近些年大火的GAN也是基於這個思路來解決生成建模問題, GAN的提出者Ian Goodfellow也認爲GAN就是RL的一種方式 [36]。而將GAN於傳統IRL結合的GAIL[37]已經吸引了很多學者的注意。

6. RL中的遷移學習與多任務學習。當前RL的採樣效率極低，而且學到的知識不通用。遷移學習與多任務學習可以有效解決這些問題。通過將從原任務中學習的策略遷移至新任務中，避免了針對新任務從頭開始學習，這樣可以大大降低數據需求，同時也提升了算法的自適應能力。在真實環境中使用RL的一大困難在於RL的不穩定性，一個自然的思路是通過遷移學習將在模擬器中訓練好的穩定策略遷移到真實環境中，策略在新環境中僅通過少量探索即可滿足要求。然而，這一研究領域面臨的一大問題就是現實鴻溝（Reality Gap），即模擬器的仿真環境與真實環境差異過大。好的模擬器不僅可以有效填補現實鴻溝，還同時滿足RL算法大量採樣的需求，因此可以極大促進RL的研究與開發，如上文提到的Sim-to-Real[71]。同時，這也是RL與VR技術的一個結合點。近期學術界和工業界紛紛在這一領域發力。在自動駕駛領域，Gazebo、EuroTruck Simulator、TORCS、Unity、Apollo、Prescan、Panosim和Carsim等模擬器各具特色，而英特爾研究院開發的CARLA模擬器[38]逐漸成爲業界研究的標準。其他領域的模擬器開發也呈現百花齊放之勢：在家庭環境模擬領域， MIT 和多倫多大學合力開發了功能豐富的VirturalHome模擬器；在無人機模擬訓練領域，MIT也開發了Flight Goggles模擬器。

7. 提升RL的的泛化能力。機器學習最重要的目標就是泛化能力, 而現有的RL方法大多在這一指標上表現糟糕[8]，無怪乎Jacob Andreas會批評RL的成功是來自“train on the test set”。這一問題已經引起了學界的廣泛重視，研究者們試圖通過學習環境的動力學模型[80]、降低模型複雜度[29]或模型無關學習[81]來提升泛化能力，這也促進了基於模型的方法與元學習（Meta-Learning）方法的發展。BAIR提出的著名的Dex-Net項目主要目標就是構建具有良好魯棒性、泛化能力的機器人抓取模型[82]，而OpenAI也於2018年4月組織了OpenAI Retro Contest ，鼓勵參與者開發具有良好泛化能力的RL算法[83]。

8. 層級RL（Hierarchical RL, HRL）。周志華教授總結DL成功的三個條件爲：有逐層處理、有特徵的內部變化和有足夠的模型複雜度[39]。而HRL不僅滿足這三個條件，而且具備更強的推理能力，是一個非常潛力的研究領域。目前HRL已經在一些需要複雜推理的任務（如Atari平臺上的《Montezuma's Revenge》遊戲）中展示了強大的學習能力[40]。

9. 與序列預測（Sequence Prediction）結合。Sequence Prediction與RL、IL解決的問題相似又不相同。三者間有很多思想可以互相借鑑。當前已有一些基於RL和IL的方法在 Sequence Prediction任務上取得了很好的結果 [41,42,43]。這一方向的突破對Video Prediction和NLP中的很多任務都會產生廣泛影響。

10. （免模型）方法探索行爲的安全性（Safe RL）。相比於基於模型的方法，免模型方法缺乏預測能力，這使得其探索行爲帶有更多不穩定性。一種研究思路是結合貝葉斯方法爲RL代理行爲的不確定性建模，從而避免過於危險的探索行爲。此外，爲了安全地將RL應用於現實環境中，可以在模擬器中藉助混合現實技術劃定危險區域，通過限制代理的活動空間約束代理的行爲。

11. 關係RL。近期學習客體間關係從而進行推理與預測的“關係學習”受到了學界的廣泛關注。關係學習往往在訓練中構建的狀態鏈，而中間狀態與最終的反饋是脫節的。RL可以將最終的反饋回傳給中間狀態，實現有效學習，因而成爲實現關係學習的最佳方式。2017年DeepMind提出的VIN[44]和Pridictron[23]均是這方面的代表作。2018年6月，DeepMind又接連發表了多篇關係學習方向的工作如關係歸納偏置[45]、關係RL[46]、關係RNN[47]、圖網絡[48]和已經在《科學》雜誌發表的生成查詢網絡（Generative Query Network，GQN）[49]。這一系列引人注目的工作將引領關係RL的熱潮。

12. 對抗樣本RL。RL被廣泛應用於機械控制等領域，這些領域相比於圖像識別語音識別等等，對魯棒性和安全性的要求更高。因此針對RL的對抗攻擊是一個非常重要的問題。近期有研究表明，會被對抗樣本操控，很多經典模型如DQN等算法都經不住對抗攻擊的擾動[50,51]。

13. 處理其他模態的輸入。在NLP領域，學界已經將RL應用於處理很多模態的數據上，如句子、篇章、知識庫等等。但是在計算機視覺領域，RL算法主要還是通過神經網絡提取圖像和視頻的特徵，對其他模態的數據很少涉及。我們可以探索將RL應用於其他模態的數據的方法，比如處理RGB-D數據和激光雷達數據等。一旦某一種數據的特徵提取難度大大降低，將其與RL有機結合後都可能取得AlphaGo級別的突破。英特爾研究院已經基於CARLA模擬器在這方面開展了一系列的工作。

4.3 重新審視RL的應用

當前的一種觀點是“RL只能打遊戲、下棋，其他的都做了”。而筆者認爲，我們不應對RL過於悲觀。其實能在視頻遊戲與棋類遊戲中超越人類，已經證明了RL推理能力的強大。通過合理改進後，有希望得到廣泛應用。往往，從研究到應用的轉化並不直觀。比如，IBM Watson® 系統以其對自然語言的理解能力和應答能力聞名世界，曾在2011年擊敗人類選手獲得Jeopardy!冠軍。而其背後的支撐技術之一竟然是當年Gerald Tesauro開發TD-Gammon程序[52]時使用的RL技術[53]。當年那個“只能用於”下棋的技術，已經在最好的問答系統中發揮不可或缺的作用了。今天的RL發展水平遠高於當年，我們怎麼能沒有信心呢？

強大的IBM Watson®背後也有RL發揮核心作用

通過調查，我們可以發現RL算法已經在各個領域被廣泛使用：

1. 控制領域。這是RL思想的發源地之一，也是RL技術應用最成熟的領域。控制領域和機器學習領域各自發展了相似的思想、概念與技術，可以互相借鑑。比如當前被廣泛應用的MPC算法與Model-based RL中的planning部分緊密相關。在機器人領域，相比於DL只能用於感知，RL相比傳統的法有自己的優勢：傳統方法如LQR等一般要對具體問題建立動力學模型，從而進行求解，複雜度較高，不適合用於做重規劃；而RL方法學習到的則是狀態-動作空間中的策略，具有更好的適應性。

2. 自動駕駛領域。駕駛就是一個序列決策過程，因此天然適合用RL來處理。從80年代的ALVINN、TORCS到如今的CARLA，業界一直在嘗試用RL解決單車輛的自動駕駛問題以及多車輛的交通調度問題。類似的思想也廣泛地應用在各種飛行器、水下無人機領域。

3. NLP領域。相比於計算機視覺領域的任務，NLP領域的很多任務是多輪的，即需通過多次迭代交互來尋求最優解（如對話系統）；而且任務的反饋信號往往需要在一系列決策後才能獲得（如機器寫作）。這樣的問題的特性自然適合用RL來解決，因而近年來RL被應用於NLP領域中的諸多任務中，如文本生成、文本摘要、序列標註、對話機器人（文字/語音）、機器翻譯、關係抽取和知識圖譜推理等等。成功的應用案例也有很多，如對話機器人領域中Yoshua Bengio 研究組開發的 MILABOT 的模型[54]、Facebook聊天機器人[55]等；機器翻譯領域Microsoft Translator [56]等。此外，在一系列跨越NLP與計算機視覺兩種模態的任務如VQA、Image/Video Caption、Image Grounding、Video Summarization等中，RL技術也都大顯身手。

4. 推薦系統與檢索系統領域。RL中的Bandits系列算法早已被廣泛應用於商品推薦、新聞推薦和在線廣告等領域。近年也有一系列的工作將RL應用於信息檢索、排序的任務中[57]。

5. 金融領域。RL強大的序列決策能力已經被金融系統所關注。無論是華爾街巨頭摩根大通還是創業公司如Kensho，都在其交易系統中引入了RL技術。

6. 對數據的選擇。在數據足夠多的情況下，如何選擇數據來實現“快、好、省”地學習，具有非常大的應用價值。近期在這方面也涌現出一系列的工作，如UCSB的Jiawei Wu提出的Reinforced Co-Training [58]等。

7. 通訊、生產調度、規劃和資源訪問控制等運籌領域。這些領域的任務往往涉及“選擇”動作的過程，而且帶標籤數據難以取得，因此廣泛使用RL進行求解。

關於RL的更全面的應用綜述請參見文獻 [59，60]。

雖然有上文列舉的諸多成功應用，但我們依舊要認識到，當前RL的發展還處於初級階段，不能包打天下。目前還沒有一個通用的RL解決方案像DL一樣成熟到成爲一種即插即用的算法。不同RL算法在各自領域各領風騷。在找到一個普適的方法之前，我們更應該針對特定問題設計專門的算法，比如在機器人領域，基於貝葉斯RL和演化算法的方法（如CMAES[61]）比DRL更合適。當然，不同的領域間應當互相借鑑與促進。RL算法的輸出存在隨機性，這是其“探索”哲學帶來的本質問題，因此我們不能盲目 All in RL, 也不應該RL in All, 而是要找準RL適合解決的問題。

針對不同問題應該使用的不同RL方法[22]

強化學習路在何方

一、深度強化學習的泡沫

1.1 DRL的可復現性危機

1.2 DRL研究存在多少坑？

二、免模型強化學習的本質缺陷

三、基於模型或免模型，問題沒那麼簡單

3.1 基於模型的方法，未來潛力巨大

3.2 免模型方法，依舊是第一選擇

3.3 不僅僅是模型與否的問題

四、重新審視強化學習

4.1 重新審視DRL的研究與應用

4.2 重新審視RL的研究

4.3 重新審視RL的應用

4.4 重新審視RL的價值

原文地址 https://zhuanlan.zhihu.com/p/39999667

deep cg2real 渲染真實感神經網絡

houdini一些資源文章

CVPR 2019 論文彙總

[轉]bert模型分析

領域驅動設計比較經典的書籍

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結