深度強化學習（資源篇）（更新於2020.04.26）

原創

守望者白狼

2020-05-31 21:29

理論
除了網紅，強化學習也能帶貨？
David Sliver || 2020年最新講解AlphaGo, AlphaZero and DeepRL
博士萬字總結 || 多智能體強化學習(MARL)大總結與論文詳細解讀
 谷歌發佈離線強化學習新範式，克服RL智能體只能在線訓練難題，訓練集相當於200多個ImageNet
谷歌推出全新強化學習智能體，1秒處理240萬幀大幅超越IMPALA
霸榜馬里奧賽車，谷歌將神經進化引入自解釋智能體，強化學習訓練參數銳減1000倍
 “事後諸葛亮”經驗池：輕鬆解決強化學習最棘手問題之一：稀疏獎勵
 頂會論文 || 65篇"IJCAI"深度強化學習論文彙總
 強化學習之路——清華博士後解讀83篇文獻，萬字長文總結
 2019年深度強化學習十大必讀論文！DeepMind、OpenAI等上榜
 超有趣！LSTM之父團隊最新力作：將強化學習“顛倒”過來
<<八千字長文深度解讀，遷移學習在強化學習中的應用及最新進展
 獲頂會最佳論文，天津大學等用強化學習尋找遊戲bug
通往量子霸權之路：谷歌用強化學習優化量子門控制策略
<ICML 2019 | 強化學習用於推薦系統，螞蟻金服提出生成對抗用戶模型
 學界 | 如何得到穩定可靠的強化學習算法？微軟兩篇頂會論文帶來安全的平滑演進
 學界 | 讓機器像人類一樣學習? 伯克利 AI 研究院提出新的元強化學習算法
<從認知學到進化論，詳述強化學習兩大最新突破
<谷歌的 PlaNet 強化學習網絡
<谷歌提出強化學習新算法SimPLe，模擬策略學習效率提高2倍
 DeepMind綜述深度強化學習中的快與慢，智能體應該像人一樣學習
<ICLR 2019 | 騎驢找馬：利用深度強化學習模型定位新物體
 DeepMind發佈新獎勵機制：讓智能體不再“碰瓷”
Pieter Abbeel：深度強化學習加速方法
 從虛擬到現實，北大等提出基於強化學習的端到端主動目標跟蹤方法
 DeepMind提出關係RNN：構建關係推理模塊，強化學習利器
 AAAI 2019 | 基於分層強化學習的關係抽取
 動態 | 谷歌 AI 最新博文：視頻模型中的模擬策略學習
 PARL源碼走讀：使用策略梯度算法求解迷宮尋寶問題
 在線元學習：通過持續元學習解決傳統機器學習方式的致命不足
 強化學習中，如何從稀疏和不明確的反饋中學習泛化
 臘月廿八 | 強化學習-TRPO和PPO背後的數學
 AAAI 2019論文解讀：機器人和認知學習
 一行代碼搞定 Scrapy 隨機 User-Agent 設置
 讓智能體主動交互，DeepMind提出用元強化學習實現因果推理
 效率提高50倍！谷歌提出從圖像中學習世界的強化學習新方法
 用於深度強化學習的結構化控制網絡（ICML 論文講解）
強化學習基礎-對偶梯度上升
 強化學習基礎 - 共軛梯度
 量化深度強化學習算法的泛化能力
<讓機器幫你做決策！強化學習在智能交互搜索的應用分享
<深度強化學習從入門到大師：以刺蝟索尼克遊戲爲例講解PPO（第六部分）
<深度強化學習從入門到大師：簡單介紹A3C （第五部分）
<深度強化學習從入門到大師：以 Cartpole 和 Doom 爲例介紹策略梯度（第四部分）
<深度強化學習從入門到大師：進一步瞭解深度Q學習（第三部分 - 下）
<深度強化學習從入門到大師：以Doom爲例一文帶你讀懂深度Q學習（第三部分 - 上）
<深度強化學習從入門到大師：通過Q學習進行強化學習（第二部分）
<深度強化學習從入門到大師：簡介篇（第一部分）
學習何時做分類決策，深度好奇提出強化學習模型Jumper
深度強化學習中的好奇心
 NIPS 2018 | Spotlight論文：憑藉幻想的目標進行視覺強化學習
 伯克利、OpenAI等提出基於模型的元策略優化強化學習
 BAIR講述如何利用深度強化學習控制靈活手
 自學習 AI 智能體第二部分：深度 Q 學習
 自學習 AI 智能體第一部分：馬爾科夫決策過程
 滴滴 KDD 2018 論文詳解：基於強化學習技術的智能派單模型
 澳門大學講座教授陳俊龍：從深度強化學習到寬度強化學習：結構，算法，機遇及挑戰

項目
不需要藉助GPU的力量，用樹莓派也能實時訓練agent玩Atari
谷歌、DeepMind 聯合發佈 Dreamer：性能遠超 PlaNet，數據效率創新高
 強化學習常用算法+實際應用，必須get這些核心要點！
乾貨 | 深度強化學習實現全家桶
 百度PARL再度奪冠NeurIPS仿生人挑戰賽：強化學習控制的流暢行走
 IJCAI 2019 | 有趣！這是一篇玩倩女幽魂的多智能體強化學習研究
 6行代碼搞定基本的RL算法，速度圍觀Reddit高贊帖
 快速上手深度強化學習？學會TensorForce就夠了
 僅需2小時學習，基於模型的強化學習方法可以在Atari上實現人類水平
 用深度Q網絡玩電子遊戲
 DeepMind讓AI組隊踢足球學會“合作”，並開源訓練環境
 Github項目推薦 | GtS 仿真泛化：將仿真和真實數據集成到基於視覺的自主飛行深度強化學習中
 圍棋 AI ELF OpenGo 迎來更新，另有田淵棟呈上開源項目的詳細解讀
 詳解深度強化學習展現TensorFlow 2.0新特性(代碼)
如何在TensorFlow 2.0中構建強化學習智能體
 開源啦：連DeepMind也捉急的遊戲，OpenAI給你攻破第一關的高分算法
 如何保持運動小車上的旗杆屹立不倒？TensorFlow利用A3C算法訓練智能體玩CartPole遊戲
 基於TensorFlow的強化學習，在《毀滅戰士》遊戲裏訓練Agent
<博客 | 任務型對話系統公式建模&&實例說明

/////////////////////////////模型框架/////////////////////////////
17種深度強化學習算法用Pytorch實現
 清華本科生開發強化學習平臺「天授」：千行代碼實現，性能吊打國外成熟平臺，剛剛開源
 谷歌推出分佈式強化學習框架SEED，性能“完爆”IMPALA，可擴展數千臺機器，還很便宜
 從“小”培養AI安全意識：OpenAI開源最新強化學習訓練工具，安全約束自由定製，開箱即用
 集合三大類無模型強化學習算法，BAIR開源RL代碼庫rlpyt
花最少的錢，訓超6的機器人：谷歌大腦推出機器人強化學習平臺，硬件代碼全開源
 卡牌遊戲八合一，華人團隊開源強化學習研究平臺RLCard
谷歌發佈一個新的強化學習環境：Google Research Football
OpenAI重磅發佈Nueral MMO：一個CPU支撐大量智能體同時在線
 3D 環境訓練智能體時代來臨？Facebook 開源仿真 3D 環境平臺 Habitat
谷歌開源強化學習深度規劃網絡 PlaNet
奪魁NeurIPS 2018強化學習大賽，百度正式發佈RL模型庫和算法框架PARL
DeepMind 開源TRFL，又一個強化學習復現、創新好幫手
 強化學習工具Horizon開源：Facebook曾用它優化在線視頻和聊天軟件
 Facebook開源首個適應大規模產品的強化學習平臺Horizon，基於PyTorch 1.0
探索新的強化學習算法遇到困難？不怕不怕，谷歌爲你帶來「多巴胺」
「多巴胺」來襲！谷歌推出新型強化學習框架Dopamine
TensorFlow Agents日前開源，輕鬆在TF中構建並行強化學習算法

資訊
6小時完成芯片佈局，谷歌用強化學習助力芯片設計
 “國產萊卡狗”走進谷歌AI Lab，強化學習算法讓機器狗漫步溜達似真狗
 FIFA變身AI主場：谷歌推出強化學習“足球引擎”完爆人類玩家
 人類一敗塗地？DeepMind推出Agent57，在所有雅達利遊戲上超越人類玩家
 《強化學習》可復現性？穩健性？Joelle Pineau無情揭示問題
 強化學習大佬, TRPO/GAE/PPO提出者 || John Schulman談：“如何做科研？”
觀點 | 深度強化學習這塊，有人說我們已經觸頂了……
機器人學前班助力機器人簡單快速學習，給予強化學習的自動駕駛策略
 從頭開始強化學習
 如何利用強化學習設計出更好的火箭發動機
 O’Reilly紐約AI Conference“遊記”：AI應用加速落地，強化學習更受關注
 觀點 | 我在谷歌大腦工作的 18 個月中，是怎樣研究強化學習的？
Facebook在加拿大成立AI實驗室，專注強化學習研究
 一圖盡展視頻遊戲AI技術，DQN無愧衆算法之鼻祖
 使用強化學習訓練機械臂完成人類任務
 《經濟學人》萬字長文：DeepMind和谷歌的AI拉鋸戰
 深度強化學習新趨勢：谷歌如何把好奇心引入強化學習智能體
 業界 | BAIR講述如何利用深度強化學習控制靈活手
 華爲 AAAI 2019 入選論文出爐，兩篇論文都是強化學習相關
 谷歌和UC伯克利的新式Actor-Critic算法快速在真實世界訓練機器人
 新的一年，DeepMind準備讓AI學會「放煙花」
真的超越了波士頓動力！深度強化學習打造的 ANYmal 登上 Science 子//////刊
 用AI設計微波集成電路，清華大學等提出深度強化學習方法RINN
EMNLP 2018 | 用強化學習做神經機器翻譯：中山大學&MSRA填補多項空白
 你需要新的好奇心方法克服強化學習中的拓展症
 超越DQN和A3C：深度強化學習領域近期新進展概覽
 谷歌大腦用強化學習爲移動設備量身定做最好最快的CNN模型

/////////////////////////////課程、書籍、文檔/////////////////////////////
2小時學強化學習？DeepMind 首席科學家、原牛津大學教授Nando教程來了
 Bengio、Sutton的深度學習&強化學習暑期班又來了，2019視頻已放出
 贈書：Sutton老爺子經典之作，《強化學習》中文第2版
 資料 | 強化學習精要：核心算法與TensorFlow 實現
 博客 | ICML 2019 深度強化學習文章彙總
 博客 | 過去10年NIPS頂會強化學習論文（100多篇）彙總（2008-2018年）
【強化學習乾貨】《深度學習與機器人學》大牛Pieter Abbeel 105頁PPT下載
 Github項目推薦 | 最優控制、強化學習和運動規劃等主題參考文獻集錦
 Github項目推薦 | 中文整理的強化學習資料（Reinforcement Learning）
資源|434頁《python強化學習實踐》（附 pdf 與完整代碼）
2019年度最佳書單：深度學習+機器學習+強化學習
 【乾貨】谷歌大腦：元學習最新進展與挑戰（40 PPT下載）
<140頁《深度強化學習入門》發佈
 DeepMind推出深度學習與強化學習進階課程（附視頻）
MIT科學家Dimitri P. Bertsekas最新2019出版《強化學習與最優控制》(附書稿PDF&講義)
<伯克利CS294深度強化學習課程資料放出（PPT+錄像）,
<重磅 | CS 294 2018 今日開課！雙語字幕獨家上線！
動態 | 從零開始快速入門深度強化學習，OpenAI 發佈學習資源 Spinning Up
人人能上手：OpenAI發射初學者友好的強化學習教程 | 代碼簡約易懂
 MILA 2018夏季深度學習與強化學習課程資源大放送
 《深度強化學習》手稿開放了！
OpenAI開課了！深度強化學習最全課程包，教程、代碼、習題、文檔一網打盡
 從Zero到Hero，OpenAI重磅發佈深度強化學習資源
 MIT 6.S094· 深度增強學習 | 學霸的課程筆記，我們都替你整理好了

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

深度強化學習系列(5): Double Q-Learning原理詳解

論文地址： https://papers.nips.cc/paper/3964-double-q-learning.pdf 本論文由DeepMind發表於2015年NIPS的一篇論文，作者Hasselt。前言： Q-Lear

2020-07-03 21:00:41

深度強化學習系列: 最全深度強化學習資料

關於這項工作: 本工作是一項由深度強化學習實驗室(Deep Reinforcement Learning Laboratory, DeepRL-Lab)發起的項目。文章同步於Github倉庫： https://github.c

2020-07-03 21:00:41

深度強化學習系列之(13): 深度強化學習實驗中應該使用多少個隨機種子？

How Many Random Seeds Should I Use? Statistical Power Analysis in (Deep) Reinforcement Learning Experiments 前言不斷檢

2020-07-03 21:00:41

深度強化學習系列(15): TRPO算法原理及Tensorflow實現

深入淺出理解TRPO算法1、論文思想與原理1.1 Surrogate function(替代函數)1.2 目標函數1.3 一階近似： L函數1.3.1 技巧一：一階近似1.3.2 重要性採樣1.3.3 步長的選擇1.4 單調遞增

2020-07-03 21:00:41

深度強化學習系列(4): Q-Learning原理與實現

論文地址： http://www.gatsby.ucl.ac.uk/~dayan/papers/cjch.pdf Q-Learning是發表於1989年的一種value-based，且model-free的特別經典的off-p

2020-07-03 21:00:41

深度強化學習系列(7): Double DQN(DDQN)原理及實現

論文地址： https://arxiv.org/pdf/1509.06461.pdf 本文是Google DeepMind於2015年12月提出的一篇解決Q值"過估計(overestimate)"的文章，發表在頂級會議AAAI

2020-07-03 21:00:36

深度強化學習系列(8): Prioritized Experience Replay(PER-DQN)原理及實現

論文地址： https://arxiv.org/abs/1511.05952 本論文是由DeepMind操刀，Schaul主導完成的文章，發表於頂會ICLR2016上，主要解決經驗回放中的”採樣問題“（在DQN算法中使用了經典

2020-07-03 21:00:36

深度強化學習系列(10): NoisyNet-DQN原理及實現

論文地址： https://arxiv.org/pdf/1706.10295v1.pdf 本篇論文是DeepMind發表於頂會ICLR2018上的論文，第一作者Meire，裏面也有熟悉的Mnih等大佬，還是往常的閱讀順序：本

2020-07-03 21:00:36

深度強化學習－－第一講

deep reinforcement learning deep: 能夠處理複雜的場景輸入以及計算真實複雜函數 reinforcement learning：能夠選擇複雜的actions 強化學習遇到的問題 * 人類可以快速學習

水的只能学

2020-07-02 23:02:41

強化學習(三）：馬爾可夫決策過程MDP【下篇】

目錄馬爾可夫決策過程MDP： a Markov reward process with decisions 策略值函數 Bellman 期望公式 Bellman期望公式的矩陣形式最優值函數 Optimal Value Funct

2020-07-01 18:56:35

強化學習【三】：動態規劃問題

·目錄 Policy Evaluation（策略評估） Iterative Policy Evaluation （迭代策略估計）例子：方格遊戲策略迭代 policy iteration 策略改進 Policy Improvement

2020-07-01 18:56:24

論文《Human-level control through deep reinforcement learning》PPT

前言由於實驗室要求每週PPT分享彙報，在這一過程中，體會到新手需要花費時間去整理論文思路，耗時較長，因此將相關PPT上傳，供有需要的遊客查閱。下載網址：Human-level.ppt …

2020-06-30 06:50:31

【深度學習】交叉熵方法

文章目錄前言第四章交叉熵方法強化學習方法的分類實用的交叉熵交叉熵法實踐：玩CartPole小遊戲交叉熵的理論背景總結前言重讀《Deep Reinforcemnet Learning Hands-on》，常讀常新，極其深入

B417科研笔记

2020-06-29 21:54:33

1. 2020年DeepMind＆UCL_深度學習講座_機器學習和AI入門

1. 2020年DeepMind＆UCL_深度學習講座_機器學習和AI入門在此講座中，DeepMind研究科學家和UCL教授Thore Graepel解釋了DeepMind基於機器學習的AI方法。他舉例說明了如何結合使用

守望者白狼

2020-06-26 18:07:48

深度強化學習（資源篇）（更新於2020.06.9）

理論 ICLR2020 || 106篇深度強化學習頂會論文彙總前沿技術 || UC Berkeley開源RAD來改進強化學習算法加速RL探索效率，CMU、谷歌、斯坦福提出以弱監督學習解糾纏表徵強化學習如何使用內在動機？邊做

守望者白狼

2020-06-26 18:07:37

24小時熱門文章

最新文章

最新評論文章