綱要Overview
一個【agent】在不確定的【環境】中極大化自己的【獎勵】
agent並沒有立刻獲得反饋(不像有監督學習一次分類後就能有正確錯誤的反饋)
與監督學習的對比:
- 是序列的數據,並不是iid分佈
- learner不得不自己發現某些行爲,因爲很多步之後才能看出獎勵
- 需要不斷試錯(需要在exploration exploitation之間平衡)
- 沒有supervisor, 只有一個獎勵信號,並且還有延遲
特徵:
- 要在環境中探索
- 延遲的獎勵
- 數據之間有時序性
- agent的行爲會影響後面的數據
監督學習的data需要人來標定,基本可以確定上限
強化學習很可能超越人的能力(圍棋,DOTA2等)
類似傳統CV 1手工設計特徵 -> 2 end2end 網絡
RL強化學習 也手工 升級爲-> 深度強化學習,端到端的升級
(特徵提取和判斷端到端的話,特徵匹配的更好)
Rewards:
一個標量signal
在t步時是否得到獎勵
極大化agent獲得的獎勵
Chess象棋中:
目的:贏棋 ;
獎勵:在遊戲結束時得到正或者負
獎勵的稀疏程度決定了難度。
近期獎勵與遠期獎勵的trade-off
對於一個agent組成成分:
1決策函數 Policy
如:70%往左,30%往右
如:往左概率>往右,則往左
2 價值函數value
把長期近期價值函數摺合在一起
Q-function:是學習出來的函數
3 model
決定下一個狀態會是什麼樣。
一種:學出價值函數,按照價值函數增長方向走
另一種:直接學策略
另一種:二者結合
或者從是否學習環境模型來分類:
學習model 或者 model-free
Exploration:探索新的,試錯
Exploitation:採用已知的得到獎勵的行爲
需要trade-off