【/強化學習7日打卡營-世界冠軍帶你從零實踐/課程摘要和調參心得-No.2】基於表格型方法求解RL

一、課程內容

2.基於表格型方法求解RL

2.1 MDP、Q表格

強化學習的基本思路來源於馬爾科夫決策過程Markov Decision Process(MDP):

在設計強化學習方法中,model-free和model-based的區別主要在於是否對policy和reward有預先建模:

根據不同場景,reward函數可能會有所不同:

比如救護車場景,是有盡頭的,每闖一個紅燈,時間上收益差不多,那麼reward可以加起來:

比如股票場景,是沒有盡頭的,越遠的收益越沒有價值,那麼就可以給未來的reward加一個折算因子gamma:

下面以gym中的懸崖環境Cliff爲例(走一步-1,掉到懸崖-1000,S起點,G終點),

一次行走,不同gamma值對reward的影響:

這樣每個座標都可以建一個Q值的表格:

基於這個表格,就可以設計SARSA、Q-learning、DQN等常見的value-based的RL方法。

2.2強化概念、TD更新等

先舉個例子,人的推理,其實是一層一層的,熟悉了一個概念後,很可能很快推導到下一個結論,這個就和Q表格非常相似。

斯坦福有個入門的gridworld的強化學習demo,做的非常好,用的就是Q表格,大家可以試一下:

下面講講時間差分Temporal Difference(TD)的概念:

MDP問題的求解,可以等所有動作結束後,用動態規劃來求解。但是如果State,action,reward等都沒有盡頭,需要一直持續,該怎麼辦呢?這時候可以用TD算法,好處是每一步都可以更新:

百度paddlepaddle強化學習團隊的PARL框架把這個agent的方法抽象爲了sample,predict、learn3個環節,還是非常好的,可以適用於幾乎所有強化學習算法。

2.3SARSA算法介紹

SARSA是一種on-policy的算法,即採樣預測和學習的時候都用了e-greedy:

展開來看則更方便理解:

e-greedy就是解決RL中exploration和exploitation平衡的問題的一種方法:

整體SARSA的算法流程圖如下:

在Cliff環境中,SARSA學到的最終結果,小烏龜會學到遠離懸崖的一條路線,這主要是因爲e-greedy有一定機率會讓小烏龜掉進懸崖,帶來很大的-reward。因此遠離懸崖更爲保險。

2.4Q-learning算法

Q-learning算法和SARSA算法非常相似,只不過是off-policy的,即採樣預測和學習的策略不一樣,只在採樣預測過程中有e-greedy,學習過程中的target則沒有,是直接選擇maxQ值的。

展開來更方便理解:

整體的流程圖如下:

Q-learning應用於Cliff環境中,則會學到一個靠近懸崖的最短路線:

On-policy和Off-policy的區別、優劣:

最後總結一下第2課的內容:

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章