百度飞桨 强化学习7日打卡营-世界冠军带你从零实践 学习心得

百度飞桨 强化学习7日打卡营-世界冠军带你从零实践 学习心得

大家好! 第一次跟大家一起了解强化学习,真的觉得 PARL强化学习 很强大。跟老师几个例子走下来,基本概念了解的七七八八,算是入门了。

PARL

文档

PARL 是一个高性能、灵活的强化学习框架。

特点

可复现性保证。我们提供了高质量的主流强化学习算法实现,严格地复现了论文对应的指标。

大规模并行支持。框架最高可支持上万个CPU的同时并发计算,并且支持多GPU强化学习模型的训练。

可复用性强。用户无需自己重新实现算法,通过复用框架提供的算法可以轻松地把经典强化学习算法应用到具体的场景中。

良好扩展性。当用户想调研新的算法时,可以通过继承我们提供的基类可以快速实现自己的强化学习算法。

依赖

  • Python 2.7 or 3.5+. (Windows系统目前仅支持python3.6+以上的环境)
  • paddlepaddle>=1.6.1 (非必须的,如果你只用并行部分的接口不需要安装paddle)
pip install parl

历程

七天时间说短也不短,短时间内集中掌握某一方面知识,概念理论基本进门了,但是扩展应用还有很长的路要走,下面讲下自己的历程。

  1. 学习全程有老师扶着过河,需要提前预备什么知识,都提前讲好了,需要提前学习做准备。
  2. 遇到问题,基本上都在群里解决了 各位老师、助教和同学非常热心有问必答。
  3. 我自己存在的问题,最近太忙了,有几节课没赶上,加上其他原因,注意力不集中,最近课后一直在补课,几节课的视频、联系一直在反复看,希望创意赛能摸头用好理论。

感悟

  1. 一是框架的学习。在了解了基本功能原理的基础上,需要从整体上对源码进行一个了解。
  2. 二是其他扩展学习。此次学习用到gym环境,刚刚接触,许多有趣的环境,有待摸索,有时候急于求成,看文档不认真,走了许多弯路。
  3. 三是创意赛。原本准备弄flappy bird,后来发现有人已经做了,特别漂亮,就转阵地了,希望能够又快又好的完成。
  4. 四是很感谢各位老师的辛苦付出。讲课容易,讲好不容易,同样,组织好就更辛苦了。再此,特别感谢各位老师,要是不掌握好,都对不起付出了。
  5. 五是立一个flag。以后不论多忙,都要保质保量完成学习任务。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章