深度強化學習(資源篇)(更新於2020.04.26)

理論
除了網紅,強化學習也能帶貨?
David Sliver || 2020年最新講解AlphaGo, AlphaZero and DeepRL
博士萬字總結 || 多智能體強化學習(MARL)大總結與論文詳細解讀
谷歌發佈離線強化學習新範式,克服RL智能體只能在線訓練難題,訓練集相當於200多個ImageNet
谷歌推出全新強化學習智能體,1秒處理240萬幀大幅超越IMPALA
霸榜馬里奧賽車,谷歌將神經進化引入自解釋智能體,強化學習訓練參數銳減1000倍
“事後諸葛亮”經驗池:輕鬆解決強化學習最棘手問題之一:稀疏獎勵
頂會論文 || 65篇"IJCAI"深度強化學習論文彙總
強化學習之路——清華博士後解讀83篇文獻,萬字長文總結
2019年深度強化學習十大必讀論文!DeepMind、OpenAI等上榜
超有趣!LSTM之父團隊最新力作:將強化學習“顛倒”過來
<<八千字長文深度解讀,遷移學習在強化學習中的應用及最新進展
獲頂會最佳論文,天津大學等用強化學習尋找遊戲bug
通往量子霸權之路:谷歌用強化學習優化量子門控制策略
<ICML 2019 | 強化學習用於推薦系統,螞蟻金服提出生成對抗用戶模型
學界 | 如何得到穩定可靠的強化學習算法?微軟兩篇頂會論文帶來安全的平滑演進
學界 | 讓機器像人類一樣學習? 伯克利 AI 研究院提出新的元強化學習算法
<從認知學到進化論,詳述強化學習兩大最新突破
<谷歌的 PlaNet 強化學習網絡
<谷歌提出強化學習新算法SimPLe,模擬策略學習效率提高2倍
DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
<ICLR 2019 | 騎驢找馬:利用深度強化學習模型定位新物體
DeepMind發佈新獎勵機制:讓智能體不再“碰瓷”
Pieter Abbeel:深度強化學習加速方法
從虛擬到現實,北大等提出基於強化學習的端到端主動目標跟蹤方法
DeepMind提出關係RNN:構建關係推理模塊,強化學習利器
AAAI 2019 | 基於分層強化學習的關係抽取
動態 | 谷歌 AI 最新博文:視頻模型中的模擬策略學習
PARL源碼走讀:使用策略梯度算法求解迷宮尋寶問題
在線元學習:通過持續元學習解決傳統機器學習方式的致命不足
強化學習中,如何從稀疏和不明確的反饋中學習泛化
臘月廿八 | 強化學習-TRPO和PPO背後的數學
AAAI 2019論文解讀:機器人和認知學習
一行代碼搞定 Scrapy 隨機 User-Agent 設置
讓智能體主動交互,DeepMind提出用元強化學習實現因果推理
效率提高50倍!谷歌提出從圖像中學習世界的強化學習新方法
用於深度強化學習的結構化控制網絡(ICML 論文講解)
強化學習基礎-對偶梯度上升
強化學習基礎 - 共軛梯度
量化深度強化學習算法的泛化能力
<讓機器幫你做決策!強化學習在智能交互搜索的應用分享
<深度強化學習從入門到大師:以刺蝟索尼克遊戲爲例講解PPO(第六部分)
<深度強化學習從入門到大師:簡單介紹A3C (第五部分)
<深度強化學習從入門到大師:以 Cartpole 和 Doom 爲例介紹策略梯度 (第四部分)
<深度強化學習從入門到大師:進一步瞭解深度Q學習(第三部分 - 下)
<深度強化學習從入門到大師:以Doom爲例一文帶你讀懂深度Q學習(第三部分 - 上)
<深度強化學習從入門到大師:通過Q學習進行強化學習(第二部分)
<深度強化學習從入門到大師:簡介篇(第一部分)
學習何時做分類決策,深度好奇提出強化學習模型Jumper
深度強化學習中的好奇心
NIPS 2018 | Spotlight論文:憑藉幻想的目標進行視覺強化學習
伯克利、OpenAI等提出基於模型的元策略優化強化學習
BAIR講述如何利用深度強化學習控制靈活手
自學習 AI 智能體第二部分:深度 Q 學習
自學習 AI 智能體第一部分:馬爾科夫決策過程
滴滴 KDD 2018 論文詳解:基於強化學習技術的智能派單模型
澳門大學講座教授陳俊龍:從深度強化學習到寬度強化學習:結構,算法,機遇及挑戰

項目
不需要藉助GPU的力量,用樹莓派也能實時訓練agent玩Atari
谷歌、DeepMind 聯合發佈 Dreamer:性能遠超 PlaNet,數據效率創新高
強化學習常用算法+實際應用 ,必須get這些核心要點!
乾貨 | 深度強化學習實現全家桶
百度PARL再度奪冠NeurIPS仿生人挑戰賽:強化學習控制的流暢行走
IJCAI 2019 | 有趣!這是一篇玩倩女幽魂的多智能體強化學習研究
6行代碼搞定基本的RL算法,速度圍觀Reddit高贊帖
快速上手深度強化學習?學會TensorForce就夠了
僅需2小時學習,基於模型的強化學習方法可以在Atari上實現人類水平
用深度Q網絡玩電子遊戲
DeepMind讓AI組隊踢足球學會“合作”,並開源訓練環境
Github項目推薦 | GtS 仿真泛化:將仿真和真實數據集成到基於視覺的自主飛行深度強化學習中
圍棋 AI ELF OpenGo 迎來更新,另有田淵棟呈上開源項目的詳細解讀
詳解深度強化學習展現TensorFlow 2.0新特性(代碼)
如何在TensorFlow 2.0中構建強化學習智能體
開源啦:連DeepMind也捉急的遊戲,OpenAI給你攻破第一關的高分算法
如何保持運動小車上的旗杆屹立不倒?TensorFlow利用A3C算法訓練智能體玩CartPole遊戲
基於TensorFlow的強化學習,在《毀滅戰士》遊戲裏訓練Agent
<博客 | 任務型對話系統公式建模&&實例說明

/////////////////////////////模型框架/////////////////////////////
17種深度強化學習算法用Pytorch實現
清華本科生開發強化學習平臺「天授」:千行代碼實現,性能吊打國外成熟平臺,剛剛開源
谷歌推出分佈式強化學習框架SEED,性能“完爆”IMPALA,可擴展數千臺機器,還很便宜
從“小”培養AI安全意識:OpenAI開源最新強化學習訓練工具,安全約束自由定製,開箱即用
集合三大類無模型強化學習算法,BAIR開源RL代碼庫rlpyt
花最少的錢,訓超6的機器人:谷歌大腦推出機器人強化學習平臺,硬件代碼全開源
卡牌遊戲八合一,華人團隊開源強化學習研究平臺RLCard
谷歌發佈一個新的強化學習環境:Google Research Football
OpenAI重磅發佈Nueral MMO:一個CPU支撐大量智能體同時在線
3D 環境訓練智能體時代來臨?Facebook 開源仿真 3D 環境平臺 Habitat
谷歌開源強化學習深度規劃網絡 PlaNet
奪魁NeurIPS 2018強化學習大賽,百度正式發佈RL模型庫和算法框架PARL
DeepMind 開源TRFL,又一個強化學習復現、創新好幫手
強化學習工具Horizon開源:Facebook曾用它優化在線視頻和聊天軟件
Facebook開源首個適應大規模產品的強化學習平臺Horizon,基於PyTorch 1.0
探索新的強化學習算法遇到困難?不怕不怕,谷歌爲你帶來「多巴胺」
「多巴胺」來襲!谷歌推出新型強化學習框架Dopamine
TensorFlow Agents日前開源,輕鬆在TF中構建並行強化學習算法

資訊
6小時完成芯片佈局,谷歌用強化學習助力芯片設計
“國產萊卡狗”走進谷歌AI Lab, 強化學習算法讓機器狗漫步溜達似真狗
FIFA變身AI主場:谷歌推出強化學習“足球引擎”完爆人類玩家
人類一敗塗地?DeepMind推出Agent57,在所有雅達利遊戲上超越人類玩家
《強化學習》可復現性?穩健性?Joelle Pineau無情揭示問題
強化學習大佬, TRPO/GAE/PPO提出者 || John Schulman談:“如何做科研?”
觀點 | 深度強化學習這塊,有人說我們已經觸頂了……
機器人學前班助力機器人簡單快速學習,給予強化學習的自動駕駛策略
從頭開始強化學習
如何利用強化學習設計出更好的火箭發動機
O’Reilly紐約AI Conference“遊記”:AI應用加速落地,強化學習更受關注
觀點 | 我在谷歌大腦工作的 18 個月中,是怎樣研究強化學習的?
Facebook在加拿大成立AI實驗室,專注強化學習研究
一圖盡展視頻遊戲AI技術,DQN無愧衆算法之鼻祖
使用強化學習訓練機械臂完成人類任務
《經濟學人》萬字長文:DeepMind和谷歌的AI拉鋸戰
深度強化學習新趨勢:谷歌如何把好奇心引入強化學習智能體
業界 | BAIR講述如何利用深度強化學習控制靈活手
華爲 AAAI 2019 入選論文出爐,兩篇論文都是強化學習相關
谷歌和UC伯克利的新式Actor-Critic算法快速在真實世界訓練機器人
新的一年,DeepMind準備讓AI學會「放煙花」
真的超越了波士頓動力!深度強化學習打造的 ANYmal 登上 Science 子//////刊
用AI設計微波集成電路,清華大學等提出深度強化學習方法RINN
EMNLP 2018 | 用強化學習做神經機器翻譯:中山大學&MSRA填補多項空白
你需要新的好奇心方法克服強化學習中的拓展症
超越DQN和A3C:深度強化學習領域近期新進展概覽
谷歌大腦用強化學習爲移動設備量身定做最好最快的CNN模型

/////////////////////////////課程、書籍、文檔/////////////////////////////
2小時學強化學習?DeepMind 首席科學家、原牛津大學教授Nando教程來了
Bengio、Sutton的深度學習&強化學習暑期班又來了,2019視頻已放出
贈書:Sutton老爺子經典之作,《強化學習》中文第2版
資料 | 強化學習精要:核心算法與TensorFlow 實現
博客 | ICML 2019 深度強化學習文章彙總
博客 | 過去10年NIPS頂會強化學習論文(100多篇)彙總(2008-2018年)
【強化學習乾貨】《深度學習與機器人學》大牛Pieter Abbeel 105頁PPT下載
Github項目推薦 | 最優控制、強化學習和運動規劃等主題參考文獻集錦
Github項目推薦 | 中文整理的強化學習資料(Reinforcement Learning)
資源|434頁《python強化學習實踐》(附 pdf 與完整代碼)
2019年度最佳書單:深度學習+機器學習+強化學習
【乾貨】谷歌大腦:元學習最新進展與挑戰(40 PPT下載)
<140頁《深度強化學習入門》發佈
DeepMind推出深度學習與強化學習進階課程(附視頻)
MIT科學家Dimitri P. Bertsekas最新2019出版《強化學習與最優控制》(附書稿PDF&講義)
<伯克利CS294深度強化學習課程資料放出(PPT+錄像),
<重磅 | CS 294 2018 今日開課!雙語字幕獨家上線!
動態 | 從零開始快速入門深度強化學習,OpenAI 發佈學習資源 Spinning Up
人人能上手:OpenAI發射初學者友好的強化學習教程 | 代碼簡約易懂
MILA 2018夏季深度學習與強化學習課程資源大放送
《深度強化學習》手稿開放了!
OpenAI開課了!深度強化學習最全課程包,教程、代碼、習題、文檔一網打盡
從Zero到Hero,OpenAI重磅發佈深度強化學習資源
MIT 6.S094· 深度增強學習 | 學霸的課程筆記,我們都替你整理好了

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章