強化學習隨筆

原創

zidea

2020-10-06 23:22

甜點

雖然早已經過了學習圍棋的年齡，大學時候學校舉辦過各個系圍棋聯賽。隨着參加工作，圍棋漸漸被遺忘了。直到 AlphaGo 出現再次引起我對圍棋的關注，不過這一次更多眼光放在 AlphaGo 上。

90 年代機器學習看成統計學習，看成統計學習的應用
05 深度學習，強化學習作爲深度學習分支
12 年
今天強化學習還是處於階段

介紹圍棋

圍棋盛行於亞洲，近些年圍棋頂級高手都基本出於中日韓三國。

無氣自提
禁止全局同行
地大則勝

博弈論

圍棋是有必勝策略，任何 N 步，我們看看博弈論中是如何解釋這個問題。任意有限步結束的 0 和博弈有必勝策略。用數學歸納法，假設棋盤只有一個格子，一個人放到這個格子就勝利，我會選擇先走，如何放上算失敗，那就讓對方先走，我就勝利。假設對 N 步成立，要證明 (N+1) 步，遊戲(N+1)格子，N+1 步的遊戲可以拆成 N+1 個 N 步的遊戲，所有 N + 1 步遊戲都有必勝策略，全部是先走獲勝，會讓對手獲勝，假設有一個後走人獲勝，我選擇先走。

強化學習應用

無人機
機器手臂
DiDi 派單
無人駕駛
金融交易
遊戲和棋牌
自然語言處理(多輪對話)
<img src="./images/chatbot.jpg">
推薦系統，例如通過將推送商品和內容資源，用戶點擊就是 reward

機器學習分類

無監督: 被動
有監督/半監督
強化學習(獨立一支):
交互過程，智能體(agent)和環境(environment)
環境會給 agent 一個狀態(state) ,也可以說 agent 觀測(observe)到環境一個狀態
環境根據狀態(state) 還會給智能體(agent)一個獎勵(reward)
智能體可以通過動作(Action)來反饋給環境

基本思路將無監督問題變爲有監督問題，方法是通過交互方式來獲得交互信息，通過交互信息來產生一種狀態。agent 通過環境進行交互，收到狀態和獎賞，然後採取動作給反饋。

通過交互產生策略(policy)，
獎賞可以用於定義損失函數

探索(Exploration)和利用(Exploitation)對環境知道是有限，利用已有信息，還是根據已有信息來探索未來。
在強化學習是將訓練和測試是混在一起
planning 動態規劃
model 如果狀態有限可以通過查表方式，如果模型雖然已知，但是空間非常大，就可以動態近似規劃
對於環境模型未知的，蒙特卡洛方法
強化學習是序列估計

多學科

強化學習並不是孤立，是與學多學科有關係

控制論，考慮狀態連續，所以通過微分方差，機器人問題
運籌學: 馬爾可夫決策過程，關注投資和交易
深度學習

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

強化學習隨筆

甜點

介紹圍棋

博弈論

強化學習應用

機器學習分類

多學科

Python實現大麥網搶票的四大關鍵技術點解析

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

瀏覽器端的機器學習 tensorflowjs(6) 訓練模型

瀏覽器端的機器學習 tensorflowjs(5) 數據處理

瀏覽器端的機器學習 tensorflowjs(3) 加載 2D 數據

瀏覽器端的機器學習 tensorflowjs(2) 擬合2D數據

通過遺傳算法來優化特徵工程

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結