百度飛槳世界冠軍帶你從零實踐到強化學習第二天


大家好這裏是三歲,又是絮絮叨叨的一節課,三歲白話帶你看看第二天講了什麼吧!

基於表格型方法求解RL

強化學習四元組 < S,A, P, R>

S : state   狀態
A : action 動作
R : reward  獎勵
P : probability  狀態轉移概率

強化學習和智能體之間的交互是逐步的
他是一個和時間相關的序列決策問題。
在這裏插入圖片描述
白話解析時間:(以下爲個人認知與實際不一定符合)

交互是逐步的:類似於看電視,視頻是逐幀的,每一幀的動畫都是連續的不可能缺失不然就不是完整的影片了!

時間相關的決策:和人類的行爲一樣,我現在的行爲決定了一生,如果選好了人生完全不一樣,同樣的機器的這次學習就是機器的此生,他的每一個行爲決定了它這一生的結果。而且這一生沒有後悔藥一直是向前的。

轉態轉移概率:就是我們生活中的選着,比如喫什麼,哪裏恰?對於機器也是一樣,機器選擇是因爲概率,我們選擇是因爲思維,我們模擬了自己的思維賦值給了機器。

總結:機器學習相當於機器模擬了某一個行爲指定次數的探索,相當於人類幾千年的探索和生存史,機器學習以收益爲激勵促進機器去探索嘗試,最後獲得一個相對較好的結果。

Model-free 試錯探索

在這裏插入圖片描述
Model-based:對於p和r的概率是已知的。人、R的值和 P的概率都是知道的,這樣就相當於在前人的肩膀上拉

Model-free:對於結果都是未知的,只能夠摸着石頭過河,逐步去探索

在這裏插入圖片描述
通過價值函數來代表這個過程的好壞。(V(st+1))
Q(st,at)代表某一個點他的結果的好壞及價值

在這裏插入圖片描述
Q函數表格;轉態動作價值:相對應生活手冊,根據價值來獲取
以未來的總收益爲標準,更據實際情況進行操作。

比如:

  • 闖紅燈:一個是因爲自己想扣12分還要罰款,一個是送人去醫院或者避讓特殊車輛則不用扣分,同樣的機器學習以最後的那個結果(獎勵或處罰爲激勵項目)
  • 股票 :雖然我很久以後可能會大漲(根據預測),但是當前並不是很好,可是我預測的是當下的和好久以後的關係並不大,所以要注意時間的長度及跨度。

這裏就多了一個衰減因子的概念

經典語錄:對於遠一點的東西我們只要當自己是近視就好了!

添加一個伽馬值,範圍是0到1之間。
這個值給越往前越大(伽馬的平方)哪怕後面好久以後的數值很大但是也起不了什麼波瀾。對當前價值的影響就越小。

強化概念

在這裏插入圖片描述
當中性刺激和有條件刺激在時間上的結合導致中性刺激對也產生條件反射的學習叫做強化。

emmm,簡單點講,人類對某些事物的認知與聯繫就算是強化學習。看到定情信物想到愛人,本來兩者毫無關聯但是有了情感在裏面就不一樣啦!

轉態價值迭代

在這裏插入圖片描述
機器在學習過程中會對不同的地方進行價值評價,同時會影響周圍地方的價值,當時間長了以後會選擇出一條價值水平最高的路線。

探索與利用的選擇

在這裏插入圖片描述

在選擇過程中是強迫症還是計劃性不糾結是去新的地方探索還是始終如一,這個就是探索和利用的一個方法。

在這裏插入圖片描述

存在的問題

沒有圖形界面

原因不詳可能和環境有關係,但是在線下可以,那個結果還是比較美好的。
有幾個需要修改的

沒有文件

找不到一個GridWorld.py文件
這個可以自己寫也可以直接使用

下載地址:(點擊下載

有文件不會用?
在這裏插入圖片描述
參考這個圖,你懂得哦!!!
在這裏插入圖片描述
還有這個地方

根據他的修改了還是沒有怎麼辦?

在這裏插入圖片描述
找到這個地方,把他改成 True ,嘗試一下說不定可以有!!!

這裏是三歲今天就先到這裏了,我去研究今天晚上的作業啦!記得支持一下,點贊收藏留言關注!!!
嘔心瀝血系列!!!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章