一文全面瞭解深度強化學習

閱讀更多，歡迎關注公衆號：論文收割機（paper_reader）
原文鏈接：深度強化學習簡介

近兩年，深度強化學習可謂是空前絕後，迎來了研究的高潮，同時研究的成果也是登陸各大主流媒體，比如打敗了所有人類圍棋高手的阿爾法狗「AlphaGo 之父」David Silver最新演講，傳授強化學習的十大原則，

能夠打敗人類遊戲高手的騰訊AI×王者榮耀「絕悟」項目首亮相：KPL秋季決賽擊敗頂尖戰隊

前段時間Arxiv上面，一個McGill University做強化學習的pos-doc和幾位強化學習（reinforcement learning）的大佬聯名掛了一篇深度強化學習的survey或者說是tutorial——《An Introduction to Deep Reinforcement Learning》。讀了一些章節之後，覺得該書寫的深入淺出，值得與大家分享一下。所以這篇推送翻譯一下該書的abstract和introduction，推廣一下該書，也讓有興趣的人能夠了解到這本書講了哪些東西，點擊閱讀原文可以直接打開原文獻。

--------------------------------------------------------------------------------------------------------

摘要：

深度強化學習是由強化學習和深度強化學習組成。該領域的研究着重於解決一系列在過去無法由機器解決的決策制定問題。因此，深度強化學習在許多新的領域，如健康、機器人、智能電網、金融等領域，提出了新的應用。本書將介紹深度強化學習中的模型、算法以及應用技巧。本書特別着重於介紹泛化能力，以及深度強化學習如何在實際場景中應用。本書適用於已有機器學習基礎的讀者。

1 介紹（Introduction)

1.1 動機（Motivation）

序列決策制定（Sequential Decision Making）是機器學習中的一個重要問題。該種任務是通過過往經驗，來決定如何在不確定的環境中採取一系列的行動，從而能夠達到最終需要的目標。序列決策制定任務涵蓋了許多領域下的應用，如機器人、健康醫療、智能電網、金融、自動駕駛等等。

強化學習最初產生自行爲心理學，並在此基礎上提出瞭解決該問題的規範化的框架。其中強化學習的主要思想在於，一個人造主體(agent)能夠與它所處的環境互動，從而學習如何行動，這與生物上的主體行爲相似。

通過收集經驗，人造主體能夠通過以獲得累積的（來自環境中的）獎勵的形式，來優化一定的目標。這種方法主要能應用在任意一種基於經驗的序列決策制定任務中。

該環境可以是隨機的，該主體可以只觀察到現有狀態中的部分信息，觀察到的信息可以是高維信息（如，框架和時間序列），該主體既可以自由的從環境中獲得經驗，抑或是，數據可能會受到約束（例如主體無法足夠準確的得到數據或者數據量是有限的）。

在過去的幾年裏，由於能夠解決困難的序列決策制定問題，強化學習變得越來受歡迎。其中有一些貢獻是來自於強化學習和深度學習的組合。這種組合，被稱之爲深度強化學習。

深度強化學習特別適用於高維度的狀態空間中。已有的強化學習的方法在特徵選擇的設計上非常困難。然而深度強化學習因爲能夠從不同層次上學習到數據的主要特徵，從而只需要底層的先驗知識就能夠成功的解決複雜的任務。

例如，一個深度強化學習主體能夠學習到由上千個像素組成的圖像感知輸入。所以這也讓模仿人類在高維空間中解決問題——在幾年前還是很難想象——的任務有成爲現實的可能。

一些使用了深度強化學習的突出的工作有：訓練一個超人類水平的能夠玩像素遊戲（如喫豆人）的主體，能夠下圍棋的大師，或者是能夠打敗世界頂級撲克大師的主體。

深度強化學習也有很多實際的應用場景，比如機器人，自動駕駛，經濟分析，或者是智能電網，等等。儘管如此，現在的深度強化學習算法中仍然有很多需要解決的問題。

例如，如何更有效率的探索環境？而且將能夠表現得很好主體放在一個稍有不同的環境下（遷移學習）仍然能夠保持較好的效果，也不是一個非常容易解決的問題。因此，大量的基於深度強化學習框架的算法被提出來用以解決各種各樣的序列決策制定問題，

1.2 Outline

本深度強化學習的介紹一書旨在引導讀者有效使用和理解核心方法，同時能夠給之後深入深度提供索引。讀完本書後，讀者應該能夠理解深度強化學習的關鍵方法以及算法，並能夠應用這些算法。除此之外，讀者也會有足夠的背景知識去深入研究深度強化學習。

第二章節將會介紹機器學習和深度強化學習的研究領域，這是爲了能夠提供通用的技術用語，並且將會簡單介紹深度學習的在機器學習中更廣的應用場景。我們假設讀者對監督學習和無監督學習中常用的符號表示已經熟悉，不過我們仍然會對一些關鍵點進行回顧。

第三章節中，我們介紹強化學習的框架，以及馬爾可夫決策過程（MDP）的例子。在該場景中，我們會測試不同的方法，用以訓練一個深度強化學習的主題。一方面，學習一個價值函數（第四章節）和（或）一種對決策方案的直接表示（第五章節）屬於被稱之爲模型無關方法。另一方面，設計一個能夠使用從環境中學到的模型的算法被稱之爲基於模型的方法（第六章節）。

在第七章節中，我們介紹了強化學習泛化（generalization）的概念。在既可以是基於模型，也可以是模型無關的方法的基礎上，我們討論了幾種不同的基本問題：

（1）特徵選擇，

（2）函數近似器的選擇，

（3）目標函數的修改以及

（4）層次化學習。

在第八章節中，我們介紹了在線學習中強化學習的難點。特別地，我們討論了探測-利用兩難的問題，以及如何使用重新開局的記憶模塊。

在第九章節，我們總體介紹了現有的評估強化學習的基準。而且，我們介紹了一系列最佳的實際經驗，來確保在不同基準下獲得的結果的一致性和可復現性。

第十章節中，我們介紹了比MDP更加普適的設定：

（1）部分可觀測馬爾可夫決策過程（POMDP），

（2）遷移學習下的MDPs的分佈，

（3）無顯式表達的獎勵函數以及

（4）多主體系統。我們介紹瞭如何在這些設定下使用深度遷移學習。

第十一章節，我們介紹了深度強化學習中更廣的研究領域。包括在不同領域下對深度強化應用的討論，以及已經實現的成功和尚未解決的問題。這部分將會包括對深度強化學習和神經科學的簡單的討論。

最後，我們在第十二章節總結，並展望深度強化學習研究的未來研究方法，應用方法，已經深度強化學習和人工智能的社會影響。

閱讀更多，歡迎關注公衆號：論文收割機（paper_reader）
原文鏈接：深度強化學習簡介

一文全面瞭解深度強化學習

一文全面瞭解深度強化學習

虛假評價檢測（Spam Detection）最新工作綜述

ICLR 2020 | 利用深度展開算法尋找RNA的二級結構

最新綜述 | 圖數據上的對抗攻擊與防禦

DIFFPOOL | 利用可微分池化層構建層級圖神經網絡

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結