學習自百度強化學習打卡營,第?期(忘了),嘿嘿
(以下部分圖片和文字來自百度強化學習團隊)
先放上學習資料,強化學習導論(翻譯版):
https://rl.qiwihui.com/zh_CN/latest/
1.什麼強化學習?
核心思想:智能體agent在環境environment中學習,根據環境的狀態state,執行動作action,並根據環境的反饋reward(獎勵)來指導更好的動作。
故而強化學習三要素爲:
- state 狀態(全局) / observation 觀察值(局部)
- action 動作
- reward 獎勵
2.強化學習舉例
在這樣一個乒乓球遊戲中,我們給定一系列的決策,來看我們最終能否勝利,給一個決策,然後截個圖(這個圖就是state),根據這個state得到新的action,該action作用到環境(就是這個遊戲),我們再截個圖,就是下一個state,不斷重複這個過程,租後我們會得結果是輸了還是贏了,這就是reward
可以看到,強化學習是序列決策問題,且獎勵延遲
可以再看一個個性化推薦的案例,百度app給用戶推薦內容
所以這時,我們的environment爲:
- 可用新聞列表
- 以及手機前的用戶
agent爲:
- 百度app
而強化學習三要素:
action : 百度app給用戶推薦的內容
state: 當前推薦列表,以及用戶體驗
reward:
(1).用戶點開則爲正reward; (2).用戶未點開則爲負的reward; (3).用戶離開則爲絕對值非常大的負的reward
再看一個比較火的應用:股票
agent:是操盤手
environment:是股票市場
state:股票歷史曲線
action:買入金額、賣出金額
reward:股票積累收益
總結一ha:
3.強化學習與其他機器學習的關係:
可以看到,強化學習、監督學習和非監督學習三者並列,而深度學習的發展極大地提高了三者的性能,而Deep RL是現在一個非常熱門的領域
- 監督學習是任務驅動型的,基於分類任務或者回歸任務,得到訓練數據去訓練
- 非監督學習是數據驅動型的,需要尋找數據內部的區別和聯繫
- 強化學習是環境驅動型的,其目的是爲了適配環境
再看強化學習和監督學習的對比
可以看到強化學習在於決策,而監督學習在於認知
同時,一般要求,監督學習樣本是獨立同分布的,監督學習是有天花板上限的,標註能力決定了其上限
而強化學習數據一般要求爲序列決策數據,前後樣本一般都有聯繫
4.Agent學習的兩種方案:
Agent學習有兩種學習方案:基於價值和基於策略
基於價值,是確定性策略,其給每個狀態賦予一個價值,來代表這個狀態是好還是壞。
故而基於價值的策略,模型只要往價值高的地方走就可以得到高分
基於策略,將策略函數化,直接一條路走到底,用最後的reward來評價策略,而所謂的策略函數就是概率函數,就是每個動作的概率是多少。
而基於價值的確定性策略有: Sarsa、Q-learning、DQN
而基於策略的隨機性策略有: Policy gradient
再看一看RL算法的分類概覽:
RL有很多仿真平臺,最常用的是GYM:
好了基本概念的介紹就到這裏了嘿嘿