百度飛槳世界冠軍帶你從零實踐強化學習第三天(課程白話)


大家好你們的三歲又回來啦,今天已經是第3天的課程啦,先說聲抱歉,沒有時間看直播,只能夠通過錄播去自己解讀,如果有不足的地方請多多指教!白話三歲今天叒開始啦!

神經網絡方法求解

RL->Deep RL 數量逐漸增加到不可數

當轉態可數的時候,所有的狀態都可以用Q表格裝下然後進行處理。但是狀態太多了,無法完全記錄怎麼辦呢???

ps:國際象棋 1047種狀態,圍棋 10170,宇宙原子數量近1080,某個區間的角度轉態正無窮。

值函數的近似

針對以上實際生活中無法可數的狀態就得使用傳說中的值函數

用帶參數的Q函數來代表Q函數,可以採用多項式函數,神經網絡等進行表達。
優點:
①僅需存儲有限的參數
②狀態泛化,相似的狀態可以輸出一樣。(自動去泛化一些相似的特徵,輸出相同的值)

神經網絡

神經網絡:相當於一個巨大的黑盒子,裏面是我們大量的算法和函數,通過一系列的結果可以獲得想要的結果和值。
在這裏插入圖片描述
在這裏插入圖片描述

Q-learning

通過環境去查找Q表格獲取一個R值進行輸出,然後通過輸出修改Q表格,同時進行探索不斷完善Q表格。使得Q表格更加完善。

使用神經網絡擬合Q表格

把原來的Q表格使用前面的神經網絡進行替代,直接提取輸入的環境特徵,來得到結果。
在這裏插入圖片描述

監督式學習

在預設時除了輸入一個環境(要預測的值)還要輸入一個預計結果,促使機器學習的結果無限接近我們的預期值。機器學習的值和我們給的預期的均方差就是Loss,把Loss算盡就可以對網絡自動更新和優化。

DQN

與監督式學習類似輸入的每一個值s1得到一個相對應的Q值(這裏的q對應的是向量),在這裏需要讓Q值逼近我們的目標值,同樣用兩個值的均方差Loss來給優化函數從而更新網絡參數
在這裏插入圖片描述

DQN兩大創新點

一、 經驗回放
* 1.序列決策的樣本關聯
* 2.樣本利用率低
二、 固定Q目標
* 1.算法非平穩性

一:經驗回放的優勢
在這裏插入圖片描述
在探索和決策中添加了一個緩衝區用來存儲探索數據,同時提高決策的關聯性,促進更好的決策。

例示:
在這裏插入圖片描述

二:算法更新不平穩
在監督式學習中目標值是穩定的,預測值只要不斷的靠近真實值y即可
但是在DQN中Q的目標值是,這個值是不斷變化的,是有波動的可變值。

固定Q目標就是在一段時間內把Q固定,也就是單位時間內Q值是不動的,單位時間後再進行更新,這樣子可以促進穩定。
在這裏插入圖片描述

DQN算法使用流程

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

理論部分就到這裏啦,後面的是函數的和核心算法的解讀,這裏就不說啦。

作業問題

這次的作業問題還是有的,就三歲在羣裏面看到的一些數據來說無非是環境的選擇,然後就是調試以及代碼的書寫

環境的選擇

此處單純的提及ai studio 的notebook平臺
小編親自嘗試建議使用CPU版本(普通版)(原因是示例裏面也是普通版跑的,而且轉化高階需要修改某些參數,三歲找不到)

代碼書寫

一句話
看範例!!!
看範例!!!
看範例!!!

參數修改

可以修改大家的學習率和學習的階段(次數)
建議學習率爲0.003和0.005
次數建議2000+
具體的還得自己多嘗試

今天三歲就到這裏啦,其他問題可以留言或者私聊小編,感謝大家的支持,希望點贊關注留言收藏們沒事,謝謝大家

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章