[RL入門筆記]基本概念以及應用

原創

Ryan Huang

2020-06-24 01:54

學習自百度強化學習打卡營，第?期(忘了)，嘿嘿
(以下部分圖片和文字來自百度強化學習團隊)

先放上學習資料，強化學習導論(翻譯版):
https://rl.qiwihui.com/zh_CN/latest/

1.什麼強化學習?

核心思想：智能體agent在環境environment中學習，根據環境的狀態state，執行動作action，並根據環境的反饋reward(獎勵)來指導更好的動作。

故而強化學習三要素爲:

state 狀態(全局) / observation 觀察值(局部)
action 動作
reward 獎勵

2.強化學習舉例

在這樣一個乒乓球遊戲中，我們給定一系列的決策，來看我們最終能否勝利，給一個決策，然後截個圖(這個圖就是state)，根據這個state得到新的action，該action作用到環境(就是這個遊戲)，我們再截個圖，就是下一個state，不斷重複這個過程，租後我們會得結果是輸了還是贏了，這就是reward

可以看到，強化學習是序列決策問題，且獎勵延遲

可以再看一個個性化推薦的案例，百度app給用戶推薦內容

所以這時，我們的environment爲：

可用新聞列表
以及手機前的用戶

agent爲：

百度app

而強化學習三要素：
action : 百度app給用戶推薦的內容
state: 當前推薦列表，以及用戶體驗
reward:

     (1).用戶點開則爲正reward；
	 (2).用戶未點開則爲負的reward；
	 (3).用戶離開則爲絕對值非常大的負的reward

再看一個比較火的應用：股票

agent：是操盤手
environment：是股票市場

state：股票歷史曲線
action：買入金額、賣出金額
reward：股票積累收益

總結一ha：

3.強化學習與其他機器學習的關係：

可以看到，強化學習、監督學習和非監督學習三者並列，而深度學習的發展極大地提高了三者的性能，而Deep RL是現在一個非常熱門的領域

監督學習是任務驅動型的，基於分類任務或者回歸任務，得到訓練數據去訓練
非監督學習是數據驅動型的，需要尋找數據內部的區別和聯繫
強化學習是環境驅動型的，其目的是爲了適配環境

再看強化學習和監督學習的對比

可以看到強化學習在於決策，而監督學習在於認知
同時，一般要求，監督學習樣本是獨立同分布的，監督學習是有天花板上限的，標註能力決定了其上限
而強化學習數據一般要求爲序列決策數據，前後樣本一般都有聯繫

4.Agent學習的兩種方案：

Agent學習有兩種學習方案：基於價值和基於策略

基於價值，是確定性策略，其給每個狀態賦予一個價值，來代表這個狀態是好還是壞。
故而基於價值的策略，模型只要往價值高的地方走就可以得到高分

基於策略，將策略函數化，直接一條路走到底，用最後的reward來評價策略，而所謂的策略函數就是概率函數，就是每個動作的概率是多少。

而基於價值的確定性策略有： Sarsa、Q-learning、DQN

而基於策略的隨機性策略有： Policy gradient

再看一看RL算法的分類概覽：

RL有很多仿真平臺，最常用的是GYM：

好了基本概念的介紹就到這裏了嘿嘿

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

[RL入門筆記]基本概念以及應用

PNG 格式描述

paddle is not a package

/home/docs/checkouts/xxx/user_builds/sdofjasif/checkouts/latest/doc/source/contents.rst not found

spyder指定python環境

python查找子字符串出現的所有位置

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結