監督學習、無監督學習、強化學習
強化學習
舉例1
• 強化學習的思路和人比較類似,是在實踐中學習
• 比如學習走路,如果摔倒了,那麼我們大腦後面會給一個負面的獎勵值 =>這個走路姿勢不好;如果後面正常走了一步,那麼大腦會給一個正面的獎勵值 =>這是一個好的走路姿勢
舉例2:
• 強化學習沒有教師信號,也沒有label,即沒有直接指令告訴機器該執行什麼動作
• 反饋有延時,不能立即返回
• 輸入數據是序列數據,是一個連續的決策過程
比如AlphaGo下圍棋的Agent,可以不使用監督學習:
請一位圍棋大師帶我們遍歷許多棋局,告訴我們每個位置的最佳棋步,這個代價很貴expe nsive
• 很多情況下,沒有最佳棋步,因爲一個棋步的好壞依賴於其後的多個棋步
• 使用強化學習,整個過程唯一的反饋是在最後(贏or輸)
與監督學習的區別
沒有監督學習已經準備好的訓練數據輸出值,強化學習只有獎勵值,但 是這個獎勵值和監督學習的輸出值不一樣,它不是事先給出的,而是延後給出的(比如走路 摔倒)
與非監督學習的區別
在非監督學習中既沒有輸出值也沒有獎勵值的,只有數據特徵,而強 化學習有獎勵值(爲負是爲懲罰),此外非艦隊學習與監督學習一樣,數據之間也都是獨立的, 沒有強化學習這樣的前後依賴關係