#####好好好#######乾貨滿滿的深度強化學習綜述(中文)

0.來源說明

 

引用:深度強化學習綜述

作者:劉全,翟建偉,章宗長,鍾珊,周 倩,章 鵬,徐 進

單位:蘇州大學計算機科學與技術學院 、軟件新技術與產業化協同創新中心

出處:計算機學報,2017年第40卷

整理&排版:九三山人

 

1.內容提要

 

九三智給大家推薦一篇蘇州大學劉全老師等人綜述的深度強化學習方向發展情況,雖然是在2017年發表,沒有覆蓋到DeepMind打星際,OpenAI打DOTA等方面最新的進展,但也把DRL這個方向的主要發展脈絡梳理的蠻清晰的,而且是中文版喲,28頁的綜述奉上~

“ 

全文PDF下載,公衆號回覆:20181115

 

 

深度強化學習是人工智能領域的一個新的研究熱點. 它以一種通用的形式將深度學習的感知能力與強化學習的決策能力相結合,並能夠通過端對端的學習方式實現從原始輸入到輸出的直接控制。自提出以來, 在許多需要感知高維度原始輸入數據和決策控制的任務中,深度強化學習方法已經取得了實質性的突破. 

 

該文首先闡述了 3 類主要的深度強化學習方法,包括基於值函數的深度強化學習、基於策略梯度的深度強化學習和基於搜索與監督的深度強化學習;其次對深度強化學習領域的一些前沿研究方向進行了綜述,包括分層深度強化學習、多任務遷移深度強化學習、多智能體深度強化學習、基於記憶與推理的深度強化學習等. 最後總結了深度強化學習在若干領域的成功應用和未來發展趨勢。

 

 

 

2.強化學習的基本概念

 

強 化 學 習 (Reinforcement Learning, RL) 作爲機器學習領域另一個研究熱點,已經廣泛應用於工業製造、仿真模擬、機器人控制、優化與調度、遊戲博弈等領域.RL的基本思想是通過最大化智能體(agent) 從環境中獲得的累計獎賞值,以學習到完成目標的最優策略。因此 RL 方法更加側重於學習解決問題的策略,被認爲是邁向通用人工智能(Artificial General Intelligence, AGI)的重要途徑

 

3.深度強化學習的應用

 

在 DRL 發展的最初階段, DQN 算法主要被應用於 Atari 2600 平臺中的各類 2D 視頻遊戲中. 隨後,研究人員分別從算法和模型兩方面對 DQN 進行了改進,使得 agent 在 Atari 2600 遊戲中的平均得分提高了 300%,並在模型中加入記憶和推理模塊,成功地將 DRL 應用場景拓寬到 3D 場景下的複雜任務中. AlphaGo 圍棋算法結合深度神經網絡和MCTS,成功地擊敗了圍棋世界冠軍. 此外, DRL在機器人控制、計算機視覺、自然語言處理和醫療等領域的應用也都取得了一定的成功。

 

深度強化學習在機器人控制領域的應用:在 2D 和 3D 的模擬環境中, 基於策略梯度的DRL 方法(TRPO、 GAE、 SVG、 A3C 等) 實現了對機器人的行爲控制. 另外, 在現實場景下的機器人控制任務中,DRL也取得了若干研究成果。

 

深度強化學習在計算機視覺領域的應用:基於視覺感知的 DRL 模型可以在只輸入原始圖像的情況下,輸出當前狀態下所有可能動作的預測回報. 因此可以將 DRL 模型應用到基於動作條件的視頻預測(action-conditional video prediction)任務中。

 

深度強化學習在自然語言處理領域的應用:利用 DRL 中的策略梯度方法訓練對話模型,最終使模型生成更具連貫性、交互性和持續響應的一系列對話。

 

深度強化學習在參數優化中的應用:通過某種DRL學習機制,根據具體問題自動確定相應的學習率,將極大地提升模型的訓練效率,暫時還處於初步階段,例如谷歌利用 DRL 算法來優化數據中心服務器羣的參數設置,並節省了 40%的電力能源.

 

深度強化學習在博弈論領域的應用:DRL 的不斷發展爲求解博弈論問題開闢了一條新的道路. 深度卷積網絡具有自動學習高維輸入數據抽象表達的功能, 可以有效解決複雜任務中領域知識表示和獲取的難題. 目前,利用 DRL 技術來發展博弈論已經取得了不錯的研究成果。

 

4.DRL基本原理

 

DRL 是一種端對端(end-to-end) 的感知與控制系統,具有很強的通用性. 其學習過程可以描述爲:

(1) 在每個時刻 agent與環境交互得到一個高維度的觀察,並利用 DL 方法來感知觀察, 以得到抽象、具體的狀態特徵表示;

 

(2) 基於預期回報來評價各動作的價值函數,並通過某種策略將當前狀態映射爲相應的動作.

 

(3)環境對此動作做出反應,並得到下一個觀察. 通過不斷循環以上過程,最終可以得到實現目標的最優策略.

 

 

5.主要方法

 

  • 基於值函數的深度強化學習

深度 Q 網絡:Mnih等人將卷積神經網絡與傳統 RL中的Q 學習算法相結合, 提出了深度 Q 網絡(Deep Q-Network, DQN)模型. 該模型用於處理基於視覺感知的控制任務,是 DRL 領域的開創性工作。

 

DQN 模型結構的改進:對 DQN 模型的改進一般是通過向原有網絡中添加新的功能模塊來實現的. 例如,可以向 DQN模型中加入循環神經網絡結構,使得模型擁有時間軸上的記憶能力,比如基於競爭架構的 DQN 和深度循環 Q 網絡(Deep Recurrent Q-Network,DRQN) .

 

競爭網絡結構的模型則將 CNN 提取的抽象特徵分流到兩個支路中,其中一路代表狀態值函數,另一路代 表 依 賴 狀 態 的 動 作 優 勢 函 數 (advantagefunction) . 通過該種競爭網絡結構, agent 可以在策略評估過程中更快地識別出正確的行爲。

 

Hausknecht 等人利用循環神經網絡結構來記憶時間軸上連續的歷史狀態信息,提出了 DRQN 模型。在部分狀態可觀察的情況下, DRQN 表現出比 DQN 更好的性能. 因此 DRQN 模型適用於普遍存在部分狀態可觀察問題的複雜任務.

 

  • 基於策略梯度的深度強化學習

 

在求解 DRL 問題時,往往第一選擇是採取基於策略梯度的算法. 原因是它能夠直接優化策略的期望總獎賞,並以端對端的方式直接在策略空間中搜索最優策略,省去了繁瑣的中間環節. 因此與 DQN 及其改進模型相比, 基於策略梯度的 DRL 方法適用範圍更廣,策略優化的效果也更好。

 

策略梯度方法是一種直接使用逼近器來近似表示和優化策略,最終得到最優策略的方法. 該方法優化的是策略的期望總獎賞。

 

深度策略梯度方法的另一個研究方向是通過增加額外的人工監督來促進策略搜索. 例如著名的 AlphaGo 圍棋機器人,先使用監督學習從人類專家的棋局中預測人類的走子行爲, 再用策略梯度方法針對贏得圍棋比賽的真實目標進行精細的策略參數調整。然而在某些任務中是缺乏監督數據的,比如現實場景下的機器人控制, 可以通過引導式策略搜索( guided policy search)方法來監督策略搜索的過程. 在只接受原始輸入信號的真實場景中,引導式策略搜索實現了對機器人的操控。

 

Actor-Critic方法:在許多複雜的現實場景中,很難在線獲得大量訓練數據. 例如在真實場景下機器人的操控任務中,在線收集並利用大量訓練數據會產生十分昂貴的代價, 並且動作連續的特性使得在線抽取批量軌跡的方式無法達到令人滿意的覆蓋面. 以上問題會導致局部最優解的出現. 針對此問題,可以將傳統 RL中的行動者評論家(Actor-Critic, AC) 框架拓展到深度策略梯度方法中.

 

 

異步的優勢Actor-Critic算法:Mnih 等人根據異步強化學習(Asynchronous Reinforcement Learning, ARL) 的思想,提出了一種輕量級的 DRL 框架,該框架可以使用異步的梯度下降法來優化網絡控制器的參數,並可以結合多種 RL 算法. 其中,異步的優勢行動者評論家算法(Asynchronous Advantage Actor-Critic, A3C) 在各類連續動作空間的控制任務上表現的最好。

 

 

  • 基於搜索與監督的深度強化學習

 

通過增加額外的人工監督來促進策略搜索的過程,即爲基於搜索與監督的 DRL 的

核心思想. 蒙特卡洛樹搜索(Monte Carlo Tree Search, MCTS)作爲一種經典的啓發式策略搜索方法,被廣泛用於遊戲博弈問題中的行動規劃. 因此在基於搜索與監督的 DRL 方法中, 策略搜索一般是通過 MCTS 來完成的。AlphaGo圍棋算法將深度神經網絡和 MCTS 相結合,並取得了卓越的成就。

 

結合深度神經網絡和 MCTS:AlphaGo 的主要思想有兩點:

 

(1)使用 MCTS 來近似估計每個狀態的值函數;

(2)使用基於值函數的 CNN 來評估棋盤的當前佈局和走子.

 

AlphaGo 完整的學習系統主要由以下 4 個部分組成:

 

(1)策略網絡(policy network) . 又分爲監督學習的策略網絡和 RL 的策略網絡. 策略網絡的作用是根據當前的局面來預測和採樣下一步走棋.

(2)滾輪策略(rollout policy) .目標也是預測下一步走子,但是預測的速度是策略網絡的 1000倍.

(3)估值網絡(value network) . 根據當前局面,估計雙方獲勝的概率.

(4) MCTS. 將策略網絡、滾輪策略和估值網絡融合進策略搜索的過程中,以形成一個完整的系統

 

 

6.研究前沿

 

分層深度強化學習:利用分層強化學習(Hierarchical Reinforcement Learning,HRL)將最終目標分解爲多個子任務來學習層次化的策略,並通過組合多個子任務的策略形成有效的全局策略。

 

多任務遷移深度強化學習:在傳統 DRL 方法中, 每個訓練完成後的 agent只能解決單一任務. 然而在一些複雜的現實場景中,需要 agent 能夠同時處理多個任務,此時多任務學習和遷移學習就顯得異常重要.Wang 等人總結出 RL 中的遷移分爲兩大類:行爲上的遷移和知識上的遷移,這兩大類遷移也被廣泛應用於多任務 DRL 算法中。

 

多 agent 深度強化學習:在面對一些真實場景下的複雜決策問題時,單agent 系統的決策能力是遠遠不夠的.例如在擁有多玩家的 Atari 2600 遊戲中, 要求多個決策者之間存在相互合作或競爭的關係. 因此在特定的情形下,需要將 DRL 模型擴展爲多個 agent 之間相互合作、通信及競爭的多 agent 系統。

 

基於記憶與推理的深度強化學習:在解決一些高層次的 DRL 任務時, agent 不僅需要很強的感知能力,也需要具備一定的記憶與推理能力,才能學習到有效的決策. 因此賦予現有 DRL 模型主動記憶與推理的能力就顯得十分重要。

 

|引用文章:

劉全,翟建偉,章宗長,鍾珊,周倩,章鵬,徐進,深度強化學習綜述,2017, Vol.40,在線出版號 No.1
LIU Quan, ZHAI Jian-Wei, ZHANG Zong-Zhang, ZHONG Shan, ZHOU Qian, ZHANG Peng, XU Jin, A Survey on Deep Reinforcement
Learning, 2017,Vol.40,Online Publishing No.1

 

 

乾貨滿滿的深度強化學習綜述(中文)

 

https://mp.weixin.qq.com/s/HQStW2AW3UIZR1R-hvJ8AQ

 

 

0.來源說明

 

引用:深度強化學習綜述

作者:劉全,翟建偉,章宗長,鍾珊,周 倩,章 鵬,徐 進

單位:蘇州大學計算機科學與技術學院 、軟件新技術與產業化協同創新中心

出處:計算機學報,2017年第40卷

整理&排版:九三山人

 

1.內容提要

 

九三智給大家推薦一篇蘇州大學劉全老師等人綜述的深度強化學習方向發展情況,雖然是在2017年發表,沒有覆蓋到DeepMind打星際,OpenAI打DOTA等方面最新的進展,但也把DRL這個方向的主要發展脈絡梳理的蠻清晰的,而且是中文版喲,28頁的綜述奉上~

 

深度強化學習是人工智能領域的一個新的研究熱點. 它以一種通用的形式將深度學習的感知能力與強化學習的決策能力相結合,並能夠通過端對端的學習方式實現從原始輸入到輸出的直接控制。自提出以來, 在許多需要感知高維度原始輸入數據和決策控制的任務中,深度強化學習方法已經取得了實質性的突破. 

 

該文首先闡述了 3 類主要的深度強化學習方法,包括基於值函數的深度強化學習、基於策略梯度的深度強化學習和基於搜索與監督的深度強化學習;其次對深度強化學習領域的一些前沿研究方向進行了綜述,包括分層深度強化學習、多任務遷移深度強化學習、多智能體深度強化學習、基於記憶與推理的深度強化學習等. 最後總結了深度強化學習在若干領域的成功應用和未來發展趨勢。

 

 

 

2.強化學習的基本概念

 

強 化 學 習 (Reinforcement Learning, RL) 作爲機器學習領域另一個研究熱點,已經廣泛應用於工業製造、仿真模擬、機器人控制、優化與調度、遊戲博弈等領域.RL的基本思想是通過最大化智能體(agent) 從環境中獲得的累計獎賞值,以學習到完成目標的最優策略。因此 RL 方法更加側重於學習解決問題的策略,被認爲是邁向通用人工智能(Artificial General Intelligence, AGI)的重要途徑

 

3.深度強化學習的應用

 

在 DRL 發展的最初階段, DQN 算法主要被應用於 Atari 2600 平臺中的各類 2D 視頻遊戲中. 隨後,研究人員分別從算法和模型兩方面對 DQN 進行了改進,使得 agent 在 Atari 2600 遊戲中的平均得分提高了 300%,並在模型中加入記憶和推理模塊,成功地將 DRL 應用場景拓寬到 3D 場景下的複雜任務中. AlphaGo 圍棋算法結合深度神經網絡和MCTS,成功地擊敗了圍棋世界冠軍. 此外, DRL在機器人控制、計算機視覺、自然語言處理和醫療等領域的應用也都取得了一定的成功。

 

深度強化學習在機器人控制領域的應用:在 2D 和 3D 的模擬環境中, 基於策略梯度的DRL 方法(TRPO、 GAE、 SVG、 A3C 等) 實現了對機器人的行爲控制. 另外, 在現實場景下的機器人控制任務中,DRL也取得了若干研究成果。

 

深度強化學習在計算機視覺領域的應用:基於視覺感知的 DRL 模型可以在只輸入原始圖像的情況下,輸出當前狀態下所有可能動作的預測回報. 因此可以將 DRL 模型應用到基於動作條件的視頻預測(action-conditional video prediction)任務中。

 

深度強化學習在自然語言處理領域的應用:利用 DRL 中的策略梯度方法訓練對話模型,最終使模型生成更具連貫性、交互性和持續響應的一系列對話。

 

深度強化學習在參數優化中的應用:通過某種DRL學習機制,根據具體問題自動確定相應的學習率,將極大地提升模型的訓練效率,暫時還處於初步階段,例如谷歌利用 DRL 算法來優化數據中心服務器羣的參數設置,並節省了 40%的電力能源.

 

深度強化學習在博弈論領域的應用:DRL 的不斷發展爲求解博弈論問題開闢了一條新的道路. 深度卷積網絡具有自動學習高維輸入數據抽象表達的功能, 可以有效解決複雜任務中領域知識表示和獲取的難題. 目前,利用 DRL 技術來發展博弈論已經取得了不錯的研究成果。

 

4.DRL基本原理

 

DRL 是一種端對端(end-to-end) 的感知與控制系統,具有很強的通用性. 其學習過程可以描述爲:

(1) 在每個時刻 agent與環境交互得到一個高維度的觀察,並利用 DL 方法來感知觀察, 以得到抽象、具體的狀態特徵表示;

 

(2) 基於預期回報來評價各動作的價值函數,並通過某種策略將當前狀態映射爲相應的動作.

 

(3)環境對此動作做出反應,並得到下一個觀察. 通過不斷循環以上過程,最終可以得到實現目標的最優策略.

 

 

5.主要方法

 

  • 基於值函數的深度強化學習

深度 Q 網絡:Mnih等人將卷積神經網絡與傳統 RL中的Q 學習算法相結合, 提出了深度 Q 網絡(Deep Q-Network, DQN)模型. 該模型用於處理基於視覺感知的控制任務,是 DRL 領域的開創性工作。

 

DQN 模型結構的改進:對 DQN 模型的改進一般是通過向原有網絡中添加新的功能模塊來實現的. 例如,可以向 DQN模型中加入循環神經網絡結構,使得模型擁有時間軸上的記憶能力,比如基於競爭架構的 DQN 和深度循環 Q 網絡(Deep Recurrent Q-Network,DRQN) .

 

競爭網絡結構的模型則將 CNN 提取的抽象特徵分流到兩個支路中,其中一路代表狀態值函數,另一路代 表 依 賴 狀 態 的 動 作 優 勢 函 數 (advantagefunction) . 通過該種競爭網絡結構, agent 可以在策略評估過程中更快地識別出正確的行爲。

 

Hausknecht 等人利用循環神經網絡結構來記憶時間軸上連續的歷史狀態信息,提出了 DRQN 模型。在部分狀態可觀察的情況下, DRQN 表現出比 DQN 更好的性能. 因此 DRQN 模型適用於普遍存在部分狀態可觀察問題的複雜任務.

 

  • 基於策略梯度的深度強化學習

在求解 DRL 問題時,往往第一選擇是採取基於策略梯度的算法. 原因是它能夠直接優化策略的期望總獎賞,並以端對端的方式直接在策略空間中搜索最優策略,省去了繁瑣的中間環節. 因此與 DQN 及其改進模型相比, 基於策略梯度的 DRL 方法適用範圍更廣,策略優化的效果也更好。

 

策略梯度方法是一種直接使用逼近器來近似表示和優化策略,最終得到最優策略的方法. 該方法優化的是策略的期望總獎賞。

 

深度策略梯度方法的另一個研究方向是通過增加額外的人工監督來促進策略搜索. 例如著名的 AlphaGo 圍棋機器人,先使用監督學習從人類專家的棋局中預測人類的走子行爲, 再用策略梯度方法針對贏得圍棋比賽的真實目標進行精細的策略參數調整。然而在某些任務中是缺乏監督數據的,比如現實場景下的機器人控制, 可以通過引導式策略搜索( guided policy search)方法來監督策略搜索的過程. 在只接受原始輸入信號的真實場景中,引導式策略搜索實現了對機器人的操控。

 

Actor-Critic方法:在許多複雜的現實場景中,很難在線獲得大量訓練數據. 例如在真實場景下機器人的操控任務中,在線收集並利用大量訓練數據會產生十分昂貴的代價, 並且動作連續的特性使得在線抽取批量軌跡的方式無法達到令人滿意的覆蓋面. 以上問題會導致局部最優解的出現. 針對此問題,可以將傳統 RL中的行動者評論家(Actor-Critic, AC) 框架拓展到深度策略梯度方法中.

 

 

異步的優勢Actor-Critic算法:Mnih 等人根據異步強化學習(Asynchronous Reinforcement Learning, ARL) 的思想,提出了一種輕量級的 DRL 框架,該框架可以使用異步的梯度下降法來優化網絡控制器的參數,並可以結合多種 RL 算法. 其中,異步的優勢行動者評論家算法(Asynchronous Advantage Actor-Critic, A3C) 在各類連續動作空間的控制任務上表現的最好。

 

 

  • 基於搜索與監督的深度強化學習

 

通過增加額外的人工監督來促進策略搜索的過程,即爲基於搜索與監督的 DRL 的

核心思想. 蒙特卡洛樹搜索(Monte Carlo Tree Search, MCTS)作爲一種經典的啓發式策略搜索方法,被廣泛用於遊戲博弈問題中的行動規劃. 因此在基於搜索與監督的 DRL 方法中, 策略搜索一般是通過 MCTS 來完成的。AlphaGo圍棋算法將深度神經網絡和 MCTS 相結合,並取得了卓越的成就。

 

結合深度神經網絡和 MCTS:AlphaGo 的主要思想有兩點:

 

(1)使用 MCTS 來近似估計每個狀態的值函數;

(2)使用基於值函數的 CNN 來評估棋盤的當前佈局和走子.

 

AlphaGo 完整的學習系統主要由以下 4 個部分組成:

 

(1)策略網絡(policy network) . 又分爲監督學習的策略網絡和 RL 的策略網絡. 策略網絡的作用是根據當前的局面來預測和採樣下一步走棋.

(2)滾輪策略(rollout policy) .目標也是預測下一步走子,但是預測的速度是策略網絡的 1000倍.

(3)估值網絡(value network) . 根據當前局面,估計雙方獲勝的概率.

(4) MCTS. 將策略網絡、滾輪策略和估值網絡融合進策略搜索的過程中,以形成一個完整的系統

 

 

6.研究前沿

 

分層深度強化學習:利用分層強化學習(Hierarchical Reinforcement Learning,HRL)將最終目標分解爲多個子任務來學習層次化的策略,並通過組合多個子任務的策略形成有效的全局策略。

 

多任務遷移深度強化學習:在傳統 DRL 方法中, 每個訓練完成後的 agent只能解決單一任務. 然而在一些複雜的現實場景中,需要 agent 能夠同時處理多個任務,此時多任務學習和遷移學習就顯得異常重要.Wang 等人總結出 RL 中的遷移分爲兩大類:行爲上的遷移和知識上的遷移,這兩大類遷移也被廣泛應用於多任務 DRL 算法中。

 

多 agent 深度強化學習:在面對一些真實場景下的複雜決策問題時,單agent 系統的決策能力是遠遠不夠的.例如在擁有多玩家的 Atari 2600 遊戲中, 要求多個決策者之間存在相互合作或競爭的關係. 因此在特定的情形下,需要將 DRL 模型擴展爲多個 agent 之間相互合作、通信及競爭的多 agent 系統。

 

基於記憶與推理的深度強化學習:在解決一些高層次的 DRL 任務時, agent 不僅需要很強的感知能力,也需要具備一定的記憶與推理能力,才能學習到有效的決策. 因此賦予現有 DRL 模型主動記憶與推理的能力就顯得十分重要。

 

|引用文章:

劉全,翟建偉,章宗長,鍾珊,周倩,章鵬,徐進,深度強化學習綜述,2017, Vol.40,在線出版號 No.1
LIU Quan, ZHAI Jian-Wei, ZHANG Zong-Zhang, ZHONG Shan, ZHOU Qian, ZHANG Peng, XU Jin, A Survey on Deep Reinforcement
Learning, 2017,Vol.40,Online Publishing No.1

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章