周博磊.Phd《強化學習》課程

綱要Overview

一個【agent】在不確定的【環境】中極大化自己的【獎勵】
agent並沒有立刻獲得反饋（不像有監督學習一次分類後就能有正確錯誤的反饋）

與監督學習的對比：

特徵：

監督學習的data需要人來標定，基本可以確定上限
強化學習很可能超越人的能力（圍棋，DOTA2等）

類似傳統CV 1手工設計特徵 -> 2 end2end 網絡
RL強化學習也手工升級爲-> 深度強化學習，端到端的升級
（特徵提取和判斷端到端的話，特徵匹配的更好）

Rewards：
一個標量signal
在t步時是否得到獎勵
極大化agent獲得的獎勵

Chess象棋中：
目的：贏棋；
獎勵：在遊戲結束時得到正或者負

獎勵的稀疏程度決定了難度。
近期獎勵與遠期獎勵的trade-off

如：70%往左，30%往右
如：往左概率>往右，則往左

把長期近期價值函數摺合在一起
Q-function：是學習出來的函數

決定下一個狀態會是什麼樣。

一種：學出價值函數，按照價值函數增長方向走
另一種：直接學策略
另一種：二者結合

或者從是否學習環境模型來分類：
學習model 或者 model-free

Exploration:探索新的，試錯
Exploitation:採用已知的得到獎勵的行爲
需要trade-off

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

周博磊.Phd《強化學習》課程