強化學習的學習筆記

1 前言

感謝李宏毅教授的講解!

2 採樣sample()——探索行動的策略

sample()函數在訓練過程中對應着“樣本增廣”的作用;

3 Sarsa和Q-Learning——最初的強化學習算法

3.1 基於Q-Learning的強化學習——使用Q表進行動作選擇

其實Q-Learning的思想很簡單,就跟把大象放進冰箱是差不多的,

基本的步驟是:

  1. 觀察環境,得到observation;
  2. 根據obs查詢Q表格,選擇Q值最大的action;
  3. 執行該動作。

3.2 Sarsa和Q-Learning的預期目標

其實這兩種算法的目標不同,導致了結果不同:

Sarsa:使得sample()行爲的reward的平均水平達到最大;

Q-Learning:使得maxQ()行爲的reward的達到最大;

3 DQN——用神經網絡取代Q表格

3.1 爲什麼要用神經網絡取代Q表呢?

如果動作狀態的空間是連續的,則使用Q表可能無法對這種空間進行表述,(連續狀態的可能取值是無限多的),

於是我們將“狀態-Q值”看作是一種映射,也就是說:使用函數映射的思想來描述“狀態-Q值”的映射關係

既然是函數映射,於是我們的DNN就閃亮登場了~

4 Actor-Critic算法

在我看來Actor和Critic有着這樣的特點:

Actor——本能者

Critic——經驗者

具體的形式就是Q Function;

量化Q的方法我們採用TD,(這也是李教授講授的方法),

我感覺Critic有着將reward規則進行可導化的作用;

感性認識:表達了模型對規則的理解,(同時將reward函數進行可導化);

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章