百度飛槳世界冠軍帶你從零實踐強化學習第三天（課程白話）

原創

叁岁学编程

2020-06-25 22:54

冠軍帶你從零實踐強化學習第三天（課程白話）

神經網絡方法求解

作業問題

大家好你們的三歲又回來啦，今天已經是第3天的課程啦，先說聲抱歉，沒有時間看直播，只能夠通過錄播去自己解讀，如果有不足的地方請多多指教！白話三歲今天叒開始啦！

神經網絡方法求解

RL->Deep RL 數量逐漸增加到不可數

當轉態可數的時候，所有的狀態都可以用Q表格裝下然後進行處理。但是狀態太多了，無法完全記錄怎麼辦呢？？？

ps：國際象棋 10⁴⁷種狀態，圍棋 10¹⁷⁰，宇宙原子數量近10⁸⁰，某個區間的角度轉態正無窮。

值函數的近似

針對以上實際生活中無法可數的狀態就得使用傳說中的值函數

用帶參數的Q函數來代表Q函數，可以採用多項式函數，神經網絡等進行表達。
優點：
①僅需存儲有限的參數
②狀態泛化，相似的狀態可以輸出一樣。（自動去泛化一些相似的特徵，輸出相同的值）

神經網絡

神經網絡：相當於一個巨大的黑盒子，裏面是我們大量的算法和函數，通過一系列的結果可以獲得想要的結果和值。

Q-learning

通過環境去查找Q表格獲取一個R值進行輸出，然後通過輸出修改Q表格，同時進行探索不斷完善Q表格。使得Q表格更加完善。

使用神經網絡擬合Q表格

把原來的Q表格使用前面的神經網絡進行替代，直接提取輸入的環境特徵，來得到結果。

監督式學習

在預設時除了輸入一個環境（要預測的值）還要輸入一個預計結果，促使機器學習的結果無限接近我們的預期值。機器學習的值和我們給的預期的均方差就是Loss，把Loss算盡就可以對網絡自動更新和優化。

DQN

與監督式學習類似輸入的每一個值s1得到一個相對應的Q值（這裏的q對應的是向量），在這裏需要讓Q值逼近我們的目標值，同樣用兩個值的均方差Loss來給優化函數從而更新網絡參數

DQN兩大創新點

一、經驗回放
* 1.序列決策的樣本關聯
* 2.樣本利用率低
二、固定Q目標
* 1.算法非平穩性

一：經驗回放的優勢

在探索和決策中添加了一個緩衝區用來存儲探索數據，同時提高決策的關聯性，促進更好的決策。

例示：

二：算法更新不平穩
在監督式學習中目標值是穩定的，預測值只要不斷的靠近真實值y即可
但是在DQN中Q的目標值是，這個值是不斷變化的，是有波動的可變值。

固定Q目標就是在一段時間內把Q固定，也就是單位時間內Q值是不動的，單位時間後再進行更新，這樣子可以促進穩定。

DQN算法使用流程

理論部分就到這裏啦，後面的是函數的和核心算法的解讀，這裏就不說啦。

作業問題

這次的作業問題還是有的，就三歲在羣裏面看到的一些數據來說無非是環境的選擇，然後就是調試以及代碼的書寫

環境的選擇

此處單純的提及ai studio 的notebook平臺
小編親自嘗試建議使用CPU版本（普通版）（原因是示例裏面也是普通版跑的，而且轉化高階需要修改某些參數，三歲找不到）

代碼書寫

一句話
看範例！！！
看範例！！！
看範例！！！

參數修改

可以修改大家的學習率和學習的階段（次數）
建議學習率爲0.003和0.005
次數建議2000+
具體的還得自己多嘗試

今天三歲就到這裏啦，其他問題可以留言或者私聊小編，感謝大家的支持，希望點贊關注留言收藏們沒事，謝謝大家

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

百度飛槳世界冠軍帶你從零實踐強化學習第三天（課程白話）

冠軍帶你從零實踐強化學習第三天（課程白話）

神經網絡方法求解

RL->Deep RL 數量逐漸增加到不可數

值函數的近似

神經網絡

Q-learning

使用神經網絡擬合Q表格

監督式學習

DQN

DQN兩大創新點

DQN算法使用流程

作業問題

環境的選擇

代碼書寫

參數修改

HTML頁面關於高分屏的設置

北歐瑞典挪威芬蘭瑞士TikTok海外網紅與YouTube博主的合作模式

歐洲英國德國法國TikTok與YouTube海外網紅達人的完美合作策略

druid數據源 xml配置

百度飛槳世界冠軍帶你從零實踐強化學習第四天（三歲白話時間）

python中的集合類型（全家福）

python數據隨機漫步，生成美圖

python自定義函數 def 的奇妙世界

百度飛槳世界冠軍帶你從零實踐到強化學習第二天

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結