都說強化學習很難,其實掌握了正確的學習方法,也會變得非常簡單!
這次,所以我們榮幸的邀請到了百度連續兩屆獲得NeurIPS全球頂會賽事冠軍團隊,6月16日-6月23日,連續7天,20:30-21:30,以直播的形式,手把手帶大家從零實踐強化學習!
昨晚的直播課中,科科老師詳細的給大家解釋了Policy Gradient涉及的數學公式,帶大家去理解算法是如何一步步如何優化目標的。通過科科老師的耐心梳理,大家對強化學習一定有了更深刻的理解。
今晚精彩更多
之前的課程,我們討論的都是離散的動作空間,而在實際問題中,存在大量連續空間的問題,比如價格、角度、時間等。想要枚舉所有的動作變得更困難,而如何將所有可行的動作逐一嘗試出來也變得不那麼可能。如何解決呢?彆着急,今天科科老師帶你一一擊破!
連續動作空間上求解RL
1. 離散動作與連續動作
2. 詳解Deep Deterministic Policy Gradient
3. DDPG代碼解析
爲了在連續動作上更有效地學習,DDPG也應運而生:
終極復現項目賽題發佈
重點來了!今晚發佈終極復現項目賽題,更有科科老師現場講解項目環境,點撥實現技巧,大家千萬不要錯過!搶先看:
實現難度(兩顆星):
實現難度(三顆星):
實現難度(五顆星):
更多賽題,今晚敬請期待~
直播時間
6月20日(今晚)20:30 - 21:30
講師介紹
百度高級研發工程師 科科老師
飛槳強化學習PARL團隊核心成員,所在團隊曾兩度奪得NeurIPS強化學習賽事世界冠軍,並獲得百度最高獎等榮譽。
快來和世界冠軍大佬面對面交流吧~
點擊“閱讀原文”加入課程,獲取更多課程資料哦!