撒花！港中文周博磊--強化學習課程完結（附課件下載！）

原創

2020-06-11 01:02

【導讀】 從三月中旬開始到現在，歷時整整兩個多月時間，每週錄製和剪輯一課視頻，週末至少投入大半天時間，周博磊大牛終於獨自一人把這門《強化學習綱要》整理完成。這可能也是全網第一個中文強化學習課程。超級贊，感謝大牛的課程分享，下面視頻齊刷刷放一起，還沒看的各位RLer們，快去看起來！（文末附視頻鏈接和課件打包下載！）

個人簡介

周博磊： 2010年本科畢業於上海交通大學，2012年碩士畢業於香港中文大學，2018年博士畢業於麻省理工學院，現任香港中文大學信息工程系助理教授。

研究方向主要爲機器感知和決策，重點是通過學習可解釋、結構化的表徵，使機器能夠在複雜的環境中感知、推理和行動。

獲獎榮譽：

MIT Technology Review 2020年亞太地區35歲以下的創新者
Facebook PyRobot：Democratizing Robotics Research Award2019
Facebook博士2016-2018年計算機視覺研究金
2017年BRC獎學金
麻省理工學院Ho-Ching and Han-Ching Fund Award 2013
麻省理工學院大中華計算機科學獎學金2013
香港中文大學2012年度傑出論文獎
2011年微軟亞洲研究金
香港中文大學研究生獎學金2010-2012
上海交通大學2010年度優秀本科生論文

更多信息，詳見個人主頁：http://bzhou.ie.cuhk.edu.hk/

強化學習課程目錄

概括與基礎
馬爾科夫決策過程
無模型的價值函數估計和控制
價值函數的近似
策略優化基礎
策略優化進階
基於環境模型的 RL 方法
模仿學習
RL 分佈式系統
完結篇

部分課件pdf展示

傳送門下載

爲了方便大家學習，我已將所有課程PPT打包下載好！請關注深度學習技術前沿公衆號

後臺回覆“RL2020” 就可以獲取**《港中文周博磊強化學習綱要》視頻鏈接和課程PPT資料**

重磅！DLer-強化學習交流羣已成立！

歡迎各位RLer加入強化學習微信交流大羣，本羣旨在交流強化學習框架、策略梯度、DQN、理論推導與算法實現、前沿技術與頂會文章解讀、應用場景等內容。更有求職內推、算法競賽、資源乾貨、業界前沿資訊等，歡迎加羣交流學習！

進羣請備註：研究方向+學校/公司+暱稱（如強化學習+上交+王明）

👆 長按識別，即可邀請您進羣！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

代碼高手的過節祕籍：CodeArt Snap幫寫代碼，靈感彈指間實現

本文分享自華爲雲社區《【端午特輯】代碼高手的過節祕籍：CodeArt Snap幫寫代碼，靈感彈指間實現》，作者：華爲雲社區精選。端午將至，糉葉飄香，你卻還在爲一行行代碼頭疼？與bug纏鬥不休？現在，基於盤古大模型技術打造的華爲雲智能開

2024-06-07 22:57:17

一文教你在MindSpore中實現A2C算法訓練

本文分享自華爲雲社區《MindSpore A2C 強化學習》，作者：irrational。 Advantage Actor-Critic (A2C)算法是一個強化學習算法，它結合了策略梯度（Actor）和價值函數（Critic）的方法。A2

2024-06-07 10:56:57

京東商家智能助手：Multi-Agents 在電商垂域的探索與創新

電商助手是一款集合了多種電商經營決策功能的工具軟件，旨在幫助電商從業者完成從商品發佈到訂單管理、客服溝通、數據分析等一系列電商運營任務。京東零售基於 Multi-Agents 理念搭建了商家助手大模型在線推理服務架構，這一系統的核心是算法

2024-05-23 23:57:25

舌尖上的AI：人工智能技術正在被“端上”餐桌

來源 | 人民數字FINTECH 責編 | 晉兆雨頭圖 | CSDN 下載自視覺中國 #人工智能技術正在被“端上”餐桌四方食事，不過一碗人間煙火。人工智能作爲一門新的技術科學，正在被人間煙火氣“端”上餐桌。人工智能“洗手”

2024-05-13 21:17:25

MindSpore強化學習：使用PPO配合環境HalfCheetah-v2進行訓練

本文分享自華爲雲社區《MindSpore強化學習：使用PPO配合環境HalfCheetah-v2進行訓練》，作者： irrational。半獵豹（Half Cheetah）是一個基於MuJoCo的強化學習環境，由P. Wawrzyński

2024-04-29 10:33:13

京東廣告研發 —— 京東推薦廣告排序機制演化

1、序言：廣告排序機制的前世今生 1.1、簡介：廣告排序機制在線廣告是國內外各大互聯網公司的重要收入來源之一，而在線廣告與傳統廣告最大的區別就在於其超大規模的實時競價環境：數以萬計的廣告主在一天內可以參與億級別的流量競拍。在這複雜的實

2024-04-24 23:17:14

文心大模型ERNIE-Tiny：輕量化技術的全面解讀

隨着人工智能技術的日益成熟，大模型成爲了衆多領域的研究熱點。大模型通過龐大的數據量和複雜的網絡結構，實現了對數據的深度挖掘和高效處理。然而，大模型的龐大體積和高計算成本也限制了其在一些實際場景中的應用。爲了解決這一問題，文心大模型ERNIE

2024-04-18 11:29:53

RAG 修煉手冊｜一文講透 RAG 背後的技術

在之前的文章中《RAG 修煉手冊｜RAG敲響喪鐘？大模型長上下文是否意味着向量檢索不再重要》，我們已經介紹過 RAG 對於解決大模型幻覺問題的不可或缺性，也回顧瞭如何藉助向量數據庫提升 RAG 實戰效果。今天我們繼續剖析 RAG，將爲大

2024-04-10 21:20:11

文心千帆：從PPT製作到數字人主播，ERNIE-Bot|BLOOMZ大模型調優與RLHF訓練全攻略

隨着人工智能技術的不斷髮展，文心千帆作爲一款領先的人工智能模型，已經在多個領域展現出其強大的實力。無論是PPT製作，還是數字人主播，文心千帆都能夠爲用戶提供驚豔的應用體驗。而背後支撐這一切的，正是ERNIE-Bot|BLOOMZ大模型的強大

2024-03-29 00:01:17

人工智能大模型原理與應用實戰：自動駕駛技術的飛躍

一、人工智能大模型的基本原理人工智能大模型，尤其是深度學習模型，通常由多層神經網絡組成。這些神經網絡通過海量的參數來建立輸入數據和輸出數據之間的複雜映射關係。在訓練過程中，模型通過反向傳播算法不斷調整參數，使得模型的預測結果與真實結果儘可

2024-03-15 00:33:20

阿里雲PAI-靈駿大模型訓練工具 Pai-Megatron-Patch 正式開源！

Pai-Megatron-Patch是什麼 Pai-Megatron-Patch工具是阿里雲機器學習平臺PAI算法團隊研發，基於阿里雲智算服務PAI-靈駿平臺的大模型最佳實踐解決方案配套工具，旨在幫助大模型開發者快速上手靈駿產品，完成大語

2023-10-07 12:29:41

快速成長的祕訣｜學會自我培養和培養他人

快速成長總共三篇，分別是《完成自我認知升級》、《自我成長好方法》和《自我培養和培養他人》。本篇是第三篇，篇幅較長。針對長文的閱讀方式，依舊建議在《完成自我認知升級》中提到的閱讀方式：“在一個不被打擾的時間做好隻字不差閱讀，用批判性思維思考和

2023-09-13 01:22:12

BeautifulPrompt：PAI 推出自研 Prompt 美化器，賦能 AIGC一鍵出美圖

背景 Stable Diffusion（SD）是一種流行的AI生成內容（AI Generated Content，AIGC）模型，能在文字輸入的基礎上生成各種風格多樣的圖像。在目前的AIGC方向，SD是開源社區最熱門的模型。然而，SD能夠

2023-06-21 12:25:47

我在京東做研發 | 從好玩到好用，爆火ChatGPT前沿分享

| 嘉賓：吳友政，京東集團高級總監、京東科技語音語言算法部負責人。 2006年中科院自博士畢業後，先後在日本國立信息通信研究機構、英國愛丁堡大學、索尼中國研究院從事自然語言處理相關研究工作，主要聚焦自然語言處理、人機對話、語音識別、機器翻

2023-02-24 23:41:13

強化學習入坑總結

總結一下自己入坑強化學習的經驗。在入坑之前，自己對強化學習基本一無所知，所以對於強化學習的學習基本上是從零開始。下面總結一下自己學習強化學習所看的網課，教材，論文，代碼網課莫煩的強化學習教程。這個教程真的是通俗易懂，完全針對初

2021-12-25 21:10:24

24小時熱門文章

最新文章

最新評論文章