今晚直播 |现实环境中的强化学习如何解决？你不可错过的RL终极奥义

原創

2020-06-22 18:40

都说强化学习很难，其实掌握了正确的学习方法，也会变得非常简单！

这次，所以我们荣幸的邀请到了百度连续两届获得NeurIPS全球顶会赛事冠军团队，6月16日-6月23日，连续7天，20:30-21:30，以直播的形式，手把手带大家从零实践强化学习！

昨晚的直播课中，科科老师详细的给大家解释了Policy Gradient涉及的数学公式，带大家去理解算法是如何一步步如何优化目标的。通过科科老师的耐心梳理，大家对强化学习一定有了更深刻的理解。

今晚精彩更多

之前的课程，我们讨论的都是离散的动作空间，而在实际问题中，存在大量连续空间的问题，比如价格、角度、时间等。想要枚举所有的动作变得更困难，而如何将所有可行的动作逐一尝试出来也变得不那么可能。如何解决呢？别着急，今天科科老师带你一一击破！

连续动作空间上求解RL

1. 离散动作与连续动作

2. 详解Deep Deterministic Policy Gradient

3. DDPG代码解析

为了在连续动作上更有效地学习，DDPG也应运而生：

终极复现项目赛题发布

重点来了！今晚发布终极复现项目赛题，更有科科老师现场讲解项目环境，点拨实现技巧，大家千万不要错过！抢先看：

今晚直播 |现实环境中的强化学习如何解决？你不可错过的RL终极奥义