Reinforcement Learning學習筆記（一）綜述

原創

2018-08-25 17:42

強化學習是機器學習的一大分支，隨着alphaGo的巨大成功，其使用的強化學習方法也逐漸成爲近年來的研究熱點。個人理解強化學習與一般的機器學習主要有一下幾點差別，既有優勢又有不足。

1、傳統機器學習需要大量的標註數據，在某些領域這些數據是難以獲得或成本很高的。

2、傳統機器學習在本質上有一個學習的對象，即expert，用以生成比較的真值以計算loss來驅動網絡更新，但在一些領域並沒有一個很好的expert，例如圍棋，儘管人類已經鑽研千年，但與Master相比依然有着巨大的差距，直接將人類的數據作爲expert不僅有數據量可能不足的問題，還可能因爲expert的水平不夠而影響學習方向。（儘管傳統的機器學習學得的結果也是可以超過expert的，但可以想見一旦從本質上超出太多則會因爲loss的限制逆向傳播）

3、雖然有着一些差別，但作爲“學習”，其本質都是根據“比較”所產生的誤差來更新參數，只不過傳統機器學習的比較對象爲expert，而強化學習的比較對象爲“自己估計出的價值”（值學習），而自己估計出的價值的核心驅動力在於reward（當前reward加上未來可能得到的reward），而reward來自於自己的設計。

4、傳統機器學習與強化學習的差別還可以算的上是思路方向上的差別，但加入“深度”則只是形式上的差別，在思路上並未有很大變化，只是用含有大量參數的神經網絡去替代傳統方法中一些非線性的函數，本質上依然是對函數：輸入——>輸出的參數調整來進行優化。

強化學習自上世紀就是年代提出以來，理論在不斷的發展但核心變化不大，人們根據不同的需求設計出不同的模型，但最終目的都是爲了解決問題。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Reinforcement Learning學習筆記（一）綜述

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

RoadRunner中自建地圖並作爲Carla Map筆記

論文筆記：Planning and Decision-Making for Autonomous Vehicles

tensorflow訓練cnn網絡實現避障與導航（二）V-rep仿真環境的搭建

tensorflow訓練cnn網絡實現避障與導航（一）

一個簡單的二維（弱三維）仿真環境（stage）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結