周博磊.Phd《強化學習》課程

視頻課鏈接
github鏈接

綱要Overview

一個【agent】在不確定的【環境】中極大化自己的【獎勵】
agent並沒有立刻獲得反饋(不像有監督學習一次分類後就能有正確錯誤的反饋)

與監督學習的對比:

  1. 是序列的數據,並不是iid分佈
  2. learner不得不自己發現某些行爲,因爲很多步之後才能看出獎勵
  3. 需要不斷試錯(需要在exploration exploitation之間平衡)
  4. 沒有supervisor, 只有一個獎勵信號,並且還有延遲

特徵:

  1. 要在環境中探索
  2. 延遲的獎勵
  3. 數據之間有時序性
  4. agent的行爲會影響後面的數據

監督學習的data需要人來標定,基本可以確定上限
強化學習很可能超越人的能力(圍棋,DOTA2等)

類似傳統CV 1手工設計特徵 -> 2 end2end 網絡
RL強化學習 也手工 升級爲-> 深度強化學習,端到端的升級
(特徵提取和判斷端到端的話,特徵匹配的更好)

Rewards:
一個標量signal
在t步時是否得到獎勵
極大化agent獲得的獎勵

Chess象棋中:
目的:贏棋 ;
獎勵:在遊戲結束時得到正或者負

獎勵的稀疏程度決定了難度。
近期獎勵與遠期獎勵的trade-off

對於一個agent組成成分:

1決策函數 Policy

如:70%往左,30%往右
如:往左概率>往右,則往左

2 價值函數value

把長期近期價值函數摺合在一起
Q-function:是學習出來的函數

3 model

決定下一個狀態會是什麼樣。

一種:學出價值函數,按照價值函數增長方向走
另一種:直接學策略
另一種:二者結合

或者從是否學習環境模型來分類:
學習model 或者 model-free

Exploration:探索新的,試錯
Exploitation:採用已知的得到獎勵的行爲
需要trade-off

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章