[RL入門筆記]基本概念以及應用

學習自百度強化學習打卡營,第?期(忘了),嘿嘿
(以下部分圖片和文字來自百度強化學習團隊)

先放上學習資料,強化學習導論(翻譯版):
https://rl.qiwihui.com/zh_CN/latest/


1.什麼強化學習?

核心思想:智能體agent環境environment中學習,根據環境的狀態state,執行動作action,並根據環境的反饋reward(獎勵)來指導更好的動作。
在這裏插入圖片描述
故而強化學習三要素爲:

  • state 狀態(全局) / observation 觀察值(局部)
  • action 動作
  • reward 獎勵
    在這裏插入圖片描述

2.強化學習舉例

在這樣一個乒乓球遊戲中,我們給定一系列的決策,來看我們最終能否勝利,給一個決策,然後截個圖(這個圖就是state),根據這個state得到新的action,該action作用到環境(就是這個遊戲),我們再截個圖,就是下一個state,不斷重複這個過程,租後我們會得結果是輸了還是贏了,這就是reward
在這裏插入圖片描述
可以看到,強化學習是序列決策問題,且獎勵延遲


可以再看一個個性化推薦的案例,百度app給用戶推薦內容
在這裏插入圖片描述
所以這時,我們的environment爲:

  • 可用新聞列表
  • 以及手機前的用戶

agent爲:

  • 百度app

而強化學習三要素:
action : 百度app給用戶推薦的內容
state: 當前推薦列表,以及用戶體驗
reward:

     (1).用戶點開則爲正reward;
	 (2).用戶未點開則爲負的reward;
	 (3).用戶離開則爲絕對值非常大的負的reward

再看一個比較火的應用:股票
在這裏插入圖片描述
agent:是操盤手
environment:是股票市場

state:股票歷史曲線
action:買入金額、賣出金額
reward:股票積累收益

總結一ha:
在這裏插入圖片描述

3.強化學習與其他機器學習的關係:
在這裏插入圖片描述

可以看到,強化學習監督學習非監督學習三者並列,而深度學習的發展極大地提高了三者的性能,而Deep RL是現在一個非常熱門的領域

在這裏插入圖片描述

  • 監督學習是任務驅動型的,基於分類任務或者回歸任務,得到訓練數據去訓練
  • 非監督學習是數據驅動型的,需要尋找數據內部的區別和聯繫
  • 強化學習是環境驅動型的,其目的是爲了適配環境

再看強化學習和監督學習的對比
在這裏插入圖片描述
可以看到強化學習在於決策,而監督學習在於認知
同時,一般要求,監督學習樣本是獨立同分布的,監督學習是有天花板上限的,標註能力決定了其上限
而強化學習數據一般要求爲序列決策數據,前後樣本一般都有聯繫

4.Agent學習的兩種方案:

在這裏插入圖片描述
Agent學習有兩種學習方案:基於價值和基於策略

基於價值,是確定性策略,其給每個狀態賦予一個價值,來代表這個狀態是好還是壞。
故而基於價值的策略,模型只要往價值高的地方走就可以得到高分

基於策略,將策略函數化,直接一條路走到底,用最後的reward來評價策略,而所謂的策略函數就是概率函數,就是每個動作的概率是多少。

而基於價值的確定性策略有: Sarsa、Q-learning、DQN

而基於策略的隨機性策略有: Policy gradient


再看一看RL算法的分類概覽:
在這裏插入圖片描述

RL有很多仿真平臺,最常用的是GYM:

在這裏插入圖片描述
好了基本概念的介紹就到這裏了嘿嘿

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章