強化學習的學習筆記

原創

songyuc

2020-07-02 04:08

1 前言

感謝李宏毅教授的講解！

2 採樣sample()——探索行動的策略

sample()函數在訓練過程中對應着“樣本增廣”的作用；

3 Sarsa和Q-Learning——最初的強化學習算法

3.1 基於Q-Learning的強化學習——使用Q表進行動作選擇

其實Q-Learning的思想很簡單，就跟把大象放進冰箱是差不多的，

基本的步驟是：

觀察環境，得到observation；
根據obs查詢Q表格，選擇Q值最大的action；
執行該動作。

3.2 Sarsa和Q-Learning的預期目標

其實這兩種算法的目標不同，導致了結果不同：

Sarsa：使得sample()行爲的reward的平均水平達到最大；

Q-Learning：使得maxQ()行爲的reward的達到最大；

3 DQN——用神經網絡取代Q表格

3.1 爲什麼要用神經網絡取代Q表呢？

如果動作狀態的空間是連續的，則使用Q表可能無法對這種空間進行表述，（連續狀態的可能取值是無限多的），

於是我們將“狀態-Q值”看作是一種映射，也就是說：使用函數映射的思想來描述“狀態-Q值”的映射關係；

既然是函數映射，於是我們的DNN就閃亮登場了～

4 Actor-Critic算法

在我看來Actor和Critic有着這樣的特點：

Actor——本能者

Critic——經驗者

具體的形式就是Q Function；

量化Q的方法我們採用TD，（這也是李教授講授的方法），

我感覺Critic有着將reward規則進行可導化的作用；

感性認識：表達了模型對規則的理解，（同時將reward函數進行可導化）；

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

強化學習的學習筆記

1 前言

2 採樣sample()——探索行動的策略

3 Sarsa和Q-Learning——最初的強化學習算法

3.1 基於Q-Learning的強化學習——使用Q表進行動作選擇

3.2 Sarsa和Q-Learning的預期目標

3 DQN——用神經網絡取代Q表格

3.1 爲什麼要用神經網絡取代Q表呢？

4 Actor-Critic算法

《Python進階》學習筆記

Leetcode 3161. 物塊放置查詢

leetcode 60 排列序列

一個docker容器暴露多個端口

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

Electron的學習筆記

無人駕駛——矩形框檢測的學習筆記

OCR的學習筆記

目標檢測——YOLOV3的學習筆記

目標檢測——各個框架下Tensor和矩陣的維度次序

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結