DeepMind高贊課程:24小時看完深度強化學習最新進展(視頻)

來源:DeepMind & UCL

編輯:肖琴,文強

一直走在深度學習研究最前沿的DeepMind,終於公開了它聯合UCL的“高級深度強化學習課程”!18節課24小時,一天看完Deep RL及其2018最新進展。

今天,DeepMind 官推貼出一則告示,將 DeepMind 研究人員今年在 UCL 教授的深度強化學習課程“Advanced Deep Learning and Reinforcement Learning” 資源全部公開。

一共18節課,走過路過不能錯過。

深度強化學習是人工智能領域的一個新的研究熱點,從AlphaGo開始,DeepMind便在這一領域獨佔鰲頭。

深度強化學習以一種通用的形式將深度學習的感知能力與強化學習的決策能力相結合,並能夠通過端對端的學習方式實現從原始輸入到輸出的直接控制。自提出以來, 在許多需要感知高維度原始輸入數據和決策控制的任務中都取得了實質性的突破。

結合算法的發展和實際應用場景,DeepMind在UCL教授的這門課程內容也是最前沿的。

還有關鍵一點,那就是視頻的質量和清晰度超讚啊(需要科學上網)。

DeepMind親授“高級深度強化學習課程”

這門課程是DeepMind與倫敦大學學院(UCL)的合作項目,由於DeepMind的研究人員去UCL授課,內容由兩部分組成,一是深度學習(利用深度神經網絡進行機器學習),二是強化學習(利用強化學習進行預測和控制),最後兩條線結合在一起,也就成了DeepMind的拿手好戲——深度強化學習。

這門課也是結合案例講解的,值得一提,最後一課“第18節:深度強化學習的經典案例”,講師是 David Silver,這位AlphaGo背後的英雄以及AlphaZero靈魂人物,他講的課程無論如何也應該聽一聽。

David Silver在UCL講課的視頻截圖

在深度學習部分,課程簡要介紹了神經網絡和使用TensorFlow的監督學習,然後講授卷積神經網絡、遞歸神經網絡、端到端並基於能量的學習、優化方法、無監督學習以及注意力和記憶。討論的應用領域包括對象識別和自然語言處理。

強化學習部分將涵蓋馬爾科夫決策過程、動態規劃、無模型預測和控制、價值函數逼近、策略梯度方法、學習與規劃的集成以及探索/開發困境。討論的可能應用包括學習玩經典的棋盤遊戲和電子遊戲。

總體來說,這是一門偏向實踐的課程,需要PyTorch和編碼基礎,學完以後,學生能夠在TensorFlow上熟練實現深度學習、強化學習以及深度強化學習相關的一系列算法。

因此,除了深度學習、強化學習和深度強化學習的基礎知識,深度神經網絡的訓練以及優化方法,這門課更加註重如何在TensorFlow中實現深度學習算法,以及如何在複雜動態環境中應用強化學習。

18節課一共24小時,一天看完深度強化學習進展

課程團隊

深度學習1:介紹基於機器學習的AI

深度學習2:介紹TensorFlow

深度學習3:神經網絡基礎

強化學習1:強化學習簡介

強化學習2:開發和利用

強化學習3:馬爾科夫決策過程和動態編程

強化學習4:無模型的預測和控制

深度學習4:圖像識別、端到端學習和Embeddings之外

強化學習5:函數逼近和深度強化學習

強化學習6:策略梯度和Actor Critics

深度學習5:機器學習的優化方法

強化學習7:規劃和模型

深度學習6:NLP的深度學習

強化學習8:深度強化學習中的高級話題

深度學習7:深度學習中的注意力和記憶

強化學習9:深度RL智能體簡史

深度學習8:無監督學習和生成式模型

強化學習10:經典遊戲的案例學習

18節課一共24小時,一天看完高級深度強化學習

下面我們介紹第14節“深度強化學習中的高級話題”。講課人是DeepMind研究科學家Hado Van Hasselt。Hado Van Hasselt的研究興趣包括人工智能、機器學習、深度學習,尤其是強化學習。加入DeepMind之前,他在阿爾伯塔大學與Richard Sutton教授合作過。

Hado Van Hasselt是許多前沿論文的共同作者,包括Double Q-learning、Dueling DQN、rainbow DQN、強化學習的Ensemble算法等。

第14節視頻

全部視頻列表:

https://www.youtube.com/playlist?list=PLqYmG7hTraZDNJre23vqCGIVpfZ_K2RZs


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章