機器學習的三種方式

監督學習、無監督學習、強化學習

強化學習

舉例1

• 強化學習的思路和人比較類似,是在實踐中學習
• 比如學習走路,如果摔倒了,那麼我們大腦後面會給一個負面的獎勵值 =>這個走路姿勢不好;如果後面正常走了一步,那麼大腦會給一個正面的獎勵值 =>這是一個好的走路姿勢

舉例2:

• 強化學習沒有教師信號,也沒有label,即沒有直接指令告訴機器該執行什麼動作
• 反饋有延時,不能立即返回
• 輸入數據是序列數據,是一個連續的決策過程

比如AlphaGo下圍棋的Agent,可以不使用監督學習:
請一位圍棋大師帶我們遍歷許多棋局,告訴我們每個位置的最佳棋步,這個代價很貴expe nsive

• 很多情況下,沒有最佳棋步,因爲一個棋步的好壞依賴於其後的多個棋步
• 使用強化學習,整個過程唯一的反饋是在最後(贏or輸)

與監督學習的區別

沒有監督學習已經準備好的訓練數據輸出值,強化學習只有獎勵值,但 是這個獎勵值和監督學習的輸出值不一樣,它不是事先給出的,而是延後給出的(比如走路 摔倒)

與非監督學習的區別

在非監督學習中既沒有輸出值也沒有獎勵值的,只有數據特徵,而強 化學習有獎勵值(爲負是爲懲罰),此外非艦隊學習與監督學習一樣,數據之間也都是獨立的, 沒有強化學習這樣的前後依賴關係

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章