一、課程內容
2.基於表格型方法求解RL
2.1 MDP、Q表格
強化學習的基本思路來源於馬爾科夫決策過程Markov Decision Process(MDP):
在設計強化學習方法中,model-free和model-based的區別主要在於是否對policy和reward有預先建模:
根據不同場景,reward函數可能會有所不同:
比如救護車場景,是有盡頭的,每闖一個紅燈,時間上收益差不多,那麼reward可以加起來:
比如股票場景,是沒有盡頭的,越遠的收益越沒有價值,那麼就可以給未來的reward加一個折算因子gamma:
下面以gym中的懸崖環境Cliff爲例(走一步-1,掉到懸崖-1000,S起點,G終點),
一次行走,不同gamma值對reward的影響:
這樣每個座標都可以建一個Q值的表格:
基於這個表格,就可以設計SARSA、Q-learning、DQN等常見的value-based的RL方法。
2.2強化概念、TD更新等
先舉個例子,人的推理,其實是一層一層的,熟悉了一個概念後,很可能很快推導到下一個結論,這個就和Q表格非常相似。
斯坦福有個入門的gridworld的強化學習demo,做的非常好,用的就是Q表格,大家可以試一下:
下面講講時間差分Temporal Difference(TD)的概念:
MDP問題的求解,可以等所有動作結束後,用動態規劃來求解。但是如果State,action,reward等都沒有盡頭,需要一直持續,該怎麼辦呢?這時候可以用TD算法,好處是每一步都可以更新:
百度paddlepaddle強化學習團隊的PARL框架把這個agent的方法抽象爲了sample,predict、learn3個環節,還是非常好的,可以適用於幾乎所有強化學習算法。
2.3SARSA算法介紹
SARSA是一種on-policy的算法,即採樣預測和學習的時候都用了e-greedy:
展開來看則更方便理解:
e-greedy就是解決RL中exploration和exploitation平衡的問題的一種方法:
整體SARSA的算法流程圖如下:
在Cliff環境中,SARSA學到的最終結果,小烏龜會學到遠離懸崖的一條路線,這主要是因爲e-greedy有一定機率會讓小烏龜掉進懸崖,帶來很大的-reward。因此遠離懸崖更爲保險。
2.4Q-learning算法
Q-learning算法和SARSA算法非常相似,只不過是off-policy的,即採樣預測和學習的策略不一樣,只在採樣預測過程中有e-greedy,學習過程中的target則沒有,是直接選擇maxQ值的。
展開來更方便理解:
整體的流程圖如下:
Q-learning應用於Cliff環境中,則會學到一個靠近懸崖的最短路線:
On-policy和Off-policy的區別、優劣:
最後總結一下第2課的內容: