1 前言
感謝李宏毅教授的講解!
2 採樣sample()——探索行動的策略
sample()函數在訓練過程中對應着“樣本增廣”的作用;
3 Sarsa和Q-Learning——最初的強化學習算法
3.1 基於Q-Learning的強化學習——使用Q表進行動作選擇
其實Q-Learning的思想很簡單,就跟把大象放進冰箱是差不多的,
基本的步驟是:
- 觀察環境,得到observation;
- 根據obs查詢Q表格,選擇Q值最大的action;
- 執行該動作。
3.2 Sarsa和Q-Learning的預期目標
其實這兩種算法的目標不同,導致了結果不同:
Sarsa:使得sample()行爲的reward的平均水平達到最大;
Q-Learning:使得maxQ()行爲的reward的達到最大;
3 DQN——用神經網絡取代Q表格
3.1 爲什麼要用神經網絡取代Q表呢?
如果動作狀態的空間是連續的,則使用Q表可能無法對這種空間進行表述,(連續狀態的可能取值是無限多的),
於是我們將“狀態-Q值”看作是一種映射,也就是說:使用函數映射的思想來描述“狀態-Q值”的映射關係;
既然是函數映射,於是我們的DNN就閃亮登場了~
4 Actor-Critic算法
在我看來Actor和Critic有着這樣的特點:
Actor——本能者
Critic——經驗者
具體的形式就是Q Function;
量化Q的方法我們採用TD,(這也是李教授講授的方法),
我感覺Critic有着將reward規則進行可導化的作用;
感性認識:表達了模型對規則的理解,(同時將reward函數進行可導化);