强化学习的详细认知

    前言

      研究四足机器人过程中,如果要传递给机器人足端不同的步态方程去展现出更丰富的步态效果是很麻烦的,所以为了找到简介方便的过程,我想到了强化学习;并且会边学边深入的研究,我会记录下来的。 

 第1章
强化学习简介

       强化学习(RL)是机器学习的一个分支, 其中学习是通过与环境交互而进行的。 这是一种目标导向的学习, 学习者并未被告知应采取何种行为, 相反学习者是从其行为后果中进行学习的。 随着各种算法的提出, 该方法发展迅速, 现已是人工智能(Al)方面最活跃的研究领域之一。

本章的主要内容包括:

  • ·    强化学习的基本概念;
  • ·    强化学习算法;
  • ·    智能体环境接口;
  • ·    强化学习的环境类型;
  • ·    强化学习平台;
  • ·    强化学习的应用。
  •  什么是强化学习

      想象一下训练小狗抓球的场景, 但不能很具体地去训练狗抓球, 而是仅扔出去一个球,每次狗抓住球, 就会奖赏一块饼干。 如果没有抓住球, 就没有奖赏。 这样狗就会明白哪些行为可以使之得到饼干, 从而不断重复执行这些动作。
      同理, 在强化学习环境中, 也不会训练智能体做什么或怎么做, 而是根据智能体的每次行为给予奖励。 这种奖励可以是正面的也可以是负面的。 然后, 智能体将开始执行能够使之得到正面奖励的行为。 因此, 这是一种反复试验的过程。 在上述比喻中, 狗代表智能体。 一旦狗抓住球就会得到正面奖励的饼干, 而如果没有抓住球, 不给饼干就是负面奖励。
      奖励可能会有延迟, 即可能不会在每一个步骤都得到奖励。 奖励只能是在完成任务后才能得到。 在某些情况下, 每个步骤得到奖励会表明是否犯错。

例如:

   想象要训练一个机器人行走且不会因遇到山坡而不知所措, 但不能明确告诉机器人不要朝山的方向运动。

                                                                   

       相反, 如果机器人撞上山坡而陷入困境, 那么就会扣除 10 分, 这样机器人就会明白撞 上山坡会产生负面奖励, 从而不会再朝这个方向运动。

                             

当机器人沿着正确方向行走而不会陷入困境,将奖励20分。因此机器人学会了哪条路径是正确的,并朝着这个方向继续前进会得到更多的奖励。如下图所示

                                                                       

        强化学习智能体可以探索可能会得到良好奖励的各种行为, 或者可以开发(执行)能够获得良好奖励的先前行为。如果强化学习智能体探索了不同行为, 那么可能会得到一个很差的奖励, 这是因为所有行为都不是最佳的。如果强化学习智能体只采用了已知的最佳行为, 那么也可能会错过可以获得更好奖励的最佳行为。 探索和开发之间总是存在一种权衡关系。不能同时进行探索和开发。在后面的内容中将会详细讨论探索—开发问题。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章