今晚直播 |現實環境中的強化學習如何解決?你不可錯過的RL終極奧義


都說強化學習很難,其實掌握了正確的學習方法,也會變得非常簡單!

這次,所以我們榮幸的邀請到了百度連續兩屆獲得NeurIPS全球頂會賽事冠軍團隊,6月16日-6月23日,連續7天,20:30-21:30,以直播的形式,手把手帶大家從零實踐強化學習!

昨晚的直播課中,科科老師詳細的給大家解釋了Policy Gradient涉及的數學公式,帶大家去理解算法是如何一步步如何優化目標的。通過科科老師的耐心梳理,大家對強化學習一定有了更深刻的理解。

今晚精彩更多

之前的課程,我們討論的都是離散的動作空間,而在實際問題中,存在大量連續空間的問題,比如價格、角度、時間等。想要枚舉所有的動作變得更困難,而如何將所有可行的動作逐一嘗試出來也變得不那麼可能。如何解決呢?彆着急,今天科科老師帶你一一擊破!

連續動作空間上求解RL

1. 離散動作與連續動作

2. 詳解Deep Deterministic Policy Gradient

3. DDPG代碼解析

爲了在連續動作上更有效地學習,DDPG也應運而生:

終極復現項目賽題發佈

重點來了!今晚發佈終極復現項目賽題,更有科科老師現場講解項目環境,點撥實現技巧,大家千萬不要錯過!搶先看:

實現難度(兩顆星):


實現難度(三顆星):


實現難度(五顆星):


更多賽題,今晚敬請期待~

直播時間

6月20日(今晚)20:30 - 21:30

講師介紹

百度高級研發工程師 科科老師

飛槳強化學習PARL團隊核心成員,所在團隊曾兩度奪得NeurIPS強化學習賽事世界冠軍,並獲得百度最高獎等榮譽。

快來和世界冠軍大佬面對面交流吧~

點擊“閱讀原文”加入課程,獲取更多課程資料哦!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章