Deep Reinforcement Learning 深度增強學習資源 (持續更新）

原創

2019-07-31 01:09

https://zhuanlan.zhihu.com/p/20885568

Deep Reinforcement Learning深度增強學習可以說發源於2013年DeepMind的Playing Atari with Deep Reinforcement Learning 一文，之後2015年DeepMind 在Nature上發表了Human Level Control through Deep Reinforcement Learning一文使Deep Reinforcement Learning得到了較廣泛的關注，在2015年涌現了較多的Deep Reinforcement Learning的成果。而2016年，隨着AlphaGo的出現，Deep Reinforcement Learning 將進入全面發展的階段。

Deep Reinforcement Learning面向決策與控制問題，而決策與控制很大程度上決定了人工智能的發展水平。也因此，AlphaGo的出現具有里程碑的意義。Deep Reinforcement Learning研究使用深度神經網絡來解決決策控制問題，是深度學習領域最前沿的研究方向之一。

本文主要收集與Deep Reinforcement Learning相關的各種資料，希望對有興趣研究的童鞋有所幫助。接下來，本專欄將由我繼續發佈Deep Reinforcement Learning的相關文章。

PS：最新的資料會在資料前方標出。

1 學習資料

1）增強學習相關課程：

David Silver的增強學習課程（有視頻和ppt）: http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html
最好的增強學習教材：Sutton & Barto Book: Reinforcement Learning: An Introduction
Nando de Freitas的深度學習課程（有視頻有ppt有作業）：Machine Learning
Michael Littman的增強學習課程：https://www.udacity.com/course/reinforcement-learning–ud600
Pieter Abbeel 的AI課程（包含增強學習，使用Pacman實驗）：Artificial Intelligence
Pieter Abbeel 的深度增強學習課程：CS 294 Deep Reinforcement Learning, Fall 2015
Pieter Abbeel 的高級機器人技術（Advanced Robotics）: CS287 Fall 2015
最新機器人專題課程Penn（2016年開課）：Specialization
(最新）Deep Learning Summer School：ppts videos

2）深度學習相關課程：

Fei Fei Li的用於視覺識別的卷積神經網絡 : CS231n Convolutional Neural Networks for Visual Recognition
Andrew Ng（一個是Coursera上的課程，一個是Stanford的課程）：Machine Learning CS 229: Machine Learning
Hinton的神經網絡課程（Neural Network for Machine Learning)(2012年的）Coursera - Free Online Courses From Top Universities

3）深度增強學習相關blog：

drl的入門博客（感謝知友Richard Huang）

1.Guest Post (Part I): Demystifying Deep Reinforcement Learning

2.Guest Post (Part II): Deep Reinforcement Learning with Neon

3.Blog Post (Part III): Deep Reinforcement Learning with OpenAI Gym

Andrej Karpathy blog: Deep Reinforcement Learning: Pong from Pixels

2 深度增強學習相關講座

David Silver的：

ICLR 2015 part 1 https://www.youtube.com/watch?v=EX1CIVVkWdE

ICLR 2015 part 2 https://www.youtube.com/watch?v=zXa6UFLQCtg

UAI 2015 https://www.youtube.com/watch?v=qLaDWKd61Ig

RLDM 2015 Deep Reinforcement Learning

ICML 2016：深度增強學習TutorialAlphaGo Tutorial

Pieter Abbeel: https://www.youtube.com/watch?v=evq4p1zhS7Q
Sergey Levine: Deep Robotic Learning
John Schulman：Machine Learning Summer School

3 論文資料

這兩個人收集的基本涵蓋了當前deep reinforcement learning 的論文資料。目前確實不多。

4 大牛與企業情況：

DeepMind：http://www.deepmind.com/publications.html
OpenAI: OpenAI Gym
Pieter Abbeel 團隊(已加入OpenAI）：Pieter Abbeel---Associate Professor UC Berkeley---Co-Founder Gradescope---
Satinder Singh:Home page for Satinder Singh (Baveja) and Reinforcement Learning
CMU 進展：Lerrel Pinto Ruslan Salakhutdinov
Prefered Networks: (日本創業公司）Preferred Networks
Osaro:www.osaro.com

5 會議情況

6 開源代碼

在github可以找到dqn，ddpg，a3c, trpo 等深度增強學習典型算法的代碼，以下爲一些舉例的開源代碼：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

《期貨-市場技術分析》讀書筆記

第二本技術分析書籍，《期貨-市場分析技術》：書中的很多內容，如趨勢、趨勢線、阻力、支撐等，也象《日本蠟燭圖》一樣，沒有邏輯推理過程，沒有數據驗證。但是我認可其確實有一定的心理暗示作用。因爲我在聽很多技術分析大 V 的視頻時，他們中的大部

2024-04-29 14:32:19

《日本蠟燭圖》讀書筆記 & 技術分析回測

最近想做一些現金流的策略，所以決定把技術分析研究得更加深入一些。朋友推薦了幾本書：《日本蠟燭圖》、《期貨市場技術分析》、《纏論》，我想挨個把它們看完，同步也嘗試做一些量化技術策略。日本蠟燭圖下面這本書就是上面所說的第一本：其實，我是

2024-04-29 14:32:19

pytest lastfailed原理

相信很多使用pytest的，都知道pytest有運行上次失敗用例的參數，如下： --lf, --last-failed rerun only the tests that failed at the last run (or all

2024-04-29 14:24:29

一個開源輕量級的C#代碼格式化工具（支持VS和VS Code）

前言 C#代碼格式化工具除了ReSharper和CodeMaid，還有一款由.NET開源、免費（MIT License）、輕量級的C#語言代碼格式化工具：CSharpier。工具介紹 CSharpier是一款開源、免費、輕量級的C#語言代

2024-04-29 14:22:08

頂級 Javaer 都在用的 20 個類庫，真香！

優秀且經驗豐富的Java開發人員的特徵之一是對API的廣泛瞭解，包括JDK和第三方庫。我花了很多時間來學習API，尤其是在閱讀了Effective Java 3rd Edition之後，Joshua Bloch建議在Java 3rd E

2024-04-29 14:21:48

Linux內核之SPI協議

SPI(Serial Peripheral Interface，串行外設接口)是一種同步串行的行業標準，但是並沒有像I2C那樣有標準文檔，它還有主從、可片選的特性。圖源自Serial Peripheral Interface-wikip

藍天上的雲℡

2024-04-29 14:21:38

mongodb處理json數據很好

mysql只適合處理簡單的一級數據表複雜嵌套的json用mongodb mongodb實現: 插入: //切記數字不要帶引號,帶引號就字符串了,就無法比較大小了. //每一個對象都用{}包起來.這樣查詢時候方便多了.雖然插入寫起

張博的博客

2024-04-29 14:20:08

【Nano Framework ESP32篇】使用 LCD 屏幕

在開始主題之前，先介紹一個刷固件工具。這個工具在 idf 中是集成的，不過，樂鑫也單獨發佈了這個工具—— esptool。下載鏈接：Releases · espressif/esptool · GitHub。這貨是用 Python 寫的，只

2024-04-29 14:16:57

雙token+redis（token無感刷新）

爲什麼要使用雙token+redis呢？單token+redis+自動續期不行嗎？單token+redis的缺點：可能會出現用戶正在操作的時候，token過期了，讓用戶重新登錄的情況。單token+redis+自動續期的缺點：單to

2024-04-29 14:15:37

cookie,session,token的區別

cookie,session,token它們本質上不是同一個東西。但是都跟維持狀態信息有關係。什麼是狀態信息呢？我來用一個登錄來個大家講解。如果我們登錄以後，希望後續的所有的頁面都維持登錄的狀態，那我們就需要用剛剛講到的cookie，

2024-04-29 14:15:37

Asp .Net Core 系列：國際化多語言配置

目錄概述術語本地化器IStringLocalizer在服務類中使用本地化IStringLocalizerFactoryIHtmlLocalizerIViewLocalizer資源文件區域性回退配置 CultureProvider內置的 Re

2024-04-29 14:14:57

編譯原理PL0語法分析實驗1

編譯原理PL0語法分析實驗1 1，待分析的簡單語言的詞法相同點：都是分析種別碼不同點：詞法分析器分析的是字符串中的單詞的種別碼（單詞）語法分析器分析的是字符串的文法是否正確（句子）待分析的簡單語言的語法 BNF：（1）<程序>::=begi

2024-04-29 14:13:26

google瀏覽器插件開發

項目結構在開發Chrome插件時，以下幾個文件的作用如下： manifest.json：這是Chrome插件的清單文件，用於配置插件的基本信息、權限、頁面跳轉等。其中包括插件的名稱、版本號、圖標、後臺腳本、瀏覽器動作等信息。 ba

2024-04-29 14:12:46

element表單中選擇 el-date-picker 選擇後沒反應

折騰一早上沒有用直到百度到了 https://blog.csdn.net/KeepReal666/article/details/134471038 解決辦法：直接加上@input="$forceUpdate()"即可。

2024-04-29 14:09:56

什麼是SQL 語句中相關子查詢與非相關子查詢

1.什麼是SQL子查詢要理解相關子查詢和非相關子查詢，我們得首先理解什麼是子查詢，子查詢是指在一個查詢語句中嵌套的另一個查詢語句。子查詢可以嵌套在其他查詢語句中，如 SELECT、INSERT、UPDATE、DELETE 等，它作爲一個

2024-04-29 14:06:35

24小時熱門文章

最新文章

最新評論文章