李宏毅強化學習完整筆記！開源項目《LeeDeepRL-Notes》發佈

Datawhale開源

核心貢獻者：王琦、楊逸遠、江季

提起李宏毅老師，熟悉強化學習的讀者朋友一定不會陌生。很多人選擇的強化學習入門學習材料都是李宏毅老師的臺大公開課視頻。

現在，強化學習愛好者有更完善的學習資料了！ Datawhale開源項目組成員總結了李宏毅的強化學習視頻，實現了視頻教程的完整梳理和復現，再也不用擔心強化學習。

目前，項目已完全開源，包括課程內容、配套的習題和項目，供大家使用。

1. 李宏毅深度強化學習簡介

李宏毅老師現任臺灣大學電氣工程系副教授，主要研究方向是機器學習，特別是深度學習。他有一系列公開的強化學習課程視頻，也是很多人入門的教程。

李宏毅老師的課程包括很多常見的強化學習算法，比如策略梯度、PPO、DQN、DDPG、演員-評論員算法、模仿學習、稀疏獎勵等算法。此外，我們還補充了馬爾可夫決策過程、Q-learning、Sarsa、REINFORCE 等強化學習常見的算法及概念。

「策略梯度」課程中的 PPT，解釋了策略梯度的過程

「近端策略優化算法」課程中的 PPT，展示了重要性採樣的問題

李宏毅老師的《深度強化學習》是強化學習領域經典的中文教程之一。李老師幽默風趣的上課風格讓晦澀的強化學習理論變得輕鬆易懂，他會通過很多有趣的例子來講解強化學習理論。比如老師經常會用玩 Atari 遊戲的例子來講解強化學習算法。

此外，爲了課程的完整性，我們整理了周博磊老師的《強化學習綱要》、李科澆老師的《百度強化學習》以及多個強化學習的經典資料作爲補充。 對於想入門強化學習又想看中文講解的人來說絕對是非常推薦的。

但是，考慮到很多強化學習愛好者對於課程筆記的需求，我們不僅僅需要的是教學視頻。我們需要一份課程筆記，能夠引領學習者的思路，幫助引導他們進入這個領域。因此，就誕生了這款《LeeDeepRL-Notes》李宏毅深度強化學習筆記。

2.《LeeDeepRL-Notes》李宏毅深度強化學習筆記

LeeDeepRL-Notes 是 Datawhale 自《李宏毅機器學習筆記》後的又一開源學習項目，由團隊成員王琦、楊毅遠、江季歷時四個月協作而成，實現了李宏毅老師深度強化學習課程內容的 100% 復現，並且在此基礎上補充了有助於學習理解的相關資料和內容，對重難點公式進行了補充推導。

期間，Datawhale 組織了《深度強化學習基礎》學習，在衆多學習者共同的努力下，對該內容進行了迭代和補充。下面，讓我們來詳細瞭解下工作詳情吧。

具體工作：

2020 年 6 月 -- 2020 年 7 月：筆記整理初級階段，視頻 100% 復現；
2020 年 7 月 -- 2020 年 10 月：添加相關的習題和項目，對筆記內容及排版迭代優化；
2020 年 10 月 -- 2020 年 11 月：組隊學習《深度強化學習基礎》並對內容進行迭代完善；
2020 年 11 月：最後內容修正，正式推廣。

10月《深度強化學習基礎》組隊學習中學習者的評價

3.《LeeDeepRL-Notes》學習筆記框架

3.a 亮點

這份學習筆記具有以下優點：

完全將李宏毅老師的講課內容轉爲文字，方便學習者查閱參考。
爲了課程的完整性，我們還整理了周博磊老師的《強化學習綱要》、李科澆老師的《百度強化學習》以及多個強化學習的經典資料作爲補充。
配有相關的習題和項目。

3.b 筆記框架

內容在整體框架上與李宏毅老師的深度強化學習課程保持一致。建議學習過程中將李宏毅老師的視頻和這份資料搭配使用，效果極佳。筆記也和課程視頻完全同步。

內容導航見下：

4. 筆記內容細節展示

4.a 對 Q-learning 概念的解析

在筆記中重新整理 PPT 內容，並增加了一些註釋

4.b Actor-Critc 算法的引入

根據內容整理成知識點，方便讀者理解閱讀

在整理過程中，我們並不對視頻語音直接轉文字，而是根據內容整理成知識點，方便讀者理解閱讀。

4.c 利用貼近學生的例子解釋知識點

強化學習基本概念的解釋

5. 習題（查漏補缺）

只有教程怎麼夠，來點兒課後習題和關鍵字總結幫助大家查漏補缺也是極好的。我們根據每一章的內容，並結合其他的網絡資料，原創了課後習題以及關鍵字的總結，輔助你在更短的時間內查漏補缺，令你更快的將“零碎、無序”的知識“拼接”完整。

5.a 關鍵字讓你快速 get 到文章的要點

在每章教程的後面，我們都會結合每章的內容，將定義、具體算法、專業名詞等關鍵字和知識點，使用最短、最精確且最白話的方式總結，供大家吸收與鞏固。

教程第二章部分關鍵字示意圖

5.b 習題與參考答案助力你的查漏補缺

除了關鍵詞，我們還提供了章節對應的習題供大家查漏補缺，並且結合其他資料，提供了詳細、易懂的答案供大家參考。

教程第一章部分習題以及對應參考答案示意圖

6. 項目（動手實踐）

強化學習少了實踐怎麼行，這邊挑了三個項目，都基於流行的 OpenAI gym 環境，讓你快速入門，循序漸進，主要包括：

6.a 對項目的簡易描述

6.b 層次清晰的手寫代碼

將整個強化學習過程分成以上幾個子模塊，方便拆解與改動，並且契合原論文的僞代碼，在main.py中提供基本接口：

6.c 使用 Tensorboard 進行可視化

6.d 豐富的持續更新

在剛剛結束的組隊學習中，助教耐心地解答了大家的疑惑，並且會根據反饋的情況，在之後的一個月內，持續更新項目的設計方法和詳細的代碼思路講解，敬請期待～

7. 配套視頻

視頻地址：https://www.bilibili.com/video/BV1MW411w79n

8. 開源地址

項目地址：https://github.com/datawhalechina/leedeeprl-notes 或點擊閱讀原文獲取，歡迎star！