強化學習的詳細認知

    前言

      研究四足機器人過程中,如果要傳遞給機器人足端不同的步態方程去展現出更豐富的步態效果是很麻煩的,所以爲了找到簡介方便的過程,我想到了強化學習;並且會邊學邊深入的研究,我會記錄下來的。 

 第1章
強化學習簡介

       強化學習(RL)是機器學習的一個分支, 其中學習是通過與環境交互而進行的。 這是一種目標導向的學習, 學習者並未被告知應採取何種行爲, 相反學習者是從其行爲後果中進行學習的。 隨着各種算法的提出, 該方法發展迅速, 現已是人工智能(Al)方面最活躍的研究領域之一。

本章的主要內容包括:

  • ·    強化學習的基本概念;
  • ·    強化學習算法;
  • ·    智能體環境接口;
  • ·    強化學習的環境類型;
  • ·    強化學習平臺;
  • ·    強化學習的應用。
  •  什麼是強化學習

      想象一下訓練小狗抓球的場景, 但不能很具體地去訓練狗抓球, 而是僅扔出去一個球,每次狗抓住球, 就會獎賞一塊餅乾。 如果沒有抓住球, 就沒有獎賞。 這樣狗就會明白哪些行爲可以使之得到餅乾, 從而不斷重複執行這些動作。
      同理, 在強化學習環境中, 也不會訓練智能體做什麼或怎麼做, 而是根據智能體的每次行爲給予獎勵。 這種獎勵可以是正面的也可以是負面的。 然後, 智能體將開始執行能夠使之得到正面獎勵的行爲。 因此, 這是一種反覆試驗的過程。 在上述比喻中, 狗代表智能體。 一旦狗抓住球就會得到正面獎勵的餅乾, 而如果沒有抓住球, 不給餅乾就是負面獎勵。
      獎勵可能會有延遲, 即可能不會在每一個步驟都得到獎勵。 獎勵只能是在完成任務後才能得到。 在某些情況下, 每個步驟得到獎勵會表明是否犯錯。

例如:

   想象要訓練一個機器人行走且不會因遇到山坡而不知所措, 但不能明確告訴機器人不要朝山的方向運動。

                                                                   

       相反, 如果機器人撞上山坡而陷入困境, 那麼就會扣除 10 分, 這樣機器人就會明白撞 上山坡會產生負面獎勵, 從而不會再朝這個方向運動。

                             

當機器人沿着正確方向行走而不會陷入困境,將獎勵20分。因此機器人學會了哪條路徑是正確的,並朝着這個方向繼續前進會得到更多的獎勵。如下圖所示

                                                                       

        強化學習智能體可以探索可能會得到良好獎勵的各種行爲, 或者可以開發(執行)能夠獲得良好獎勵的先前行爲。如果強化學習智能體探索了不同行爲, 那麼可能會得到一個很差的獎勵, 這是因爲所有行爲都不是最佳的。如果強化學習智能體只採用了已知的最佳行爲, 那麼也可能會錯過可以獲得更好獎勵的最佳行爲。 探索和開發之間總是存在一種權衡關係。不能同時進行探索和開發。在後面的內容中將會詳細討論探索—開發問題。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章