強化學習隨筆

甜點

雖然早已經過了學習圍棋的年齡,大學時候學校舉辦過各個系圍棋聯賽。隨着參加工作,圍棋漸漸被遺忘了。直到 AlphaGo 出現再次引起我對圍棋的關注,不過這一次更多眼光放在 AlphaGo 上。

  • 90 年代機器學習看成統計學習,看成統計學習的應用
  • 05 深度學習,強化學習作爲深度學習分支
  • 12 年
  • 今天強化學習還是處於階段

介紹圍棋

圍棋盛行於亞洲,近些年圍棋頂級高手都基本出於中日韓三國。

  • 無氣自提
  • 禁止全局同行
  • 地大則勝

博弈論

圍棋是有必勝策略,任何 N 步,我們看看博弈論中是如何解釋這個問題。任意有限步結束的 0 和博弈有必勝策略。用數學歸納法,假設棋盤只有一個格子,一個人放到這個格子就勝利,我會選擇先走,如何放上算失敗,那就讓對方先走,我就勝利。假設對 N 步成立,要證明 (N+1) 步,遊戲(N+1)格子,N+1 步的遊戲可以拆成 N+1 個 N 步的遊戲,所有 N + 1 步遊戲都有必勝策略,全部是先走獲勝,會讓對手獲勝,假設有一個後走人獲勝,我選擇先走。

強化學習應用

  • 無人機


  • 機器手臂


  • DiDi 派單


  • 無人駕駛

  • 金融交易

  • 遊戲和棋牌

  • 自然語言處理(多輪對話)
    <img src="./images/chatbot.jpg">

  • 推薦系統,例如通過將推送商品和內容資源,用戶點擊就是 reward

機器學習分類

  • 無監督: 被動

  • 有監督/半監督

  • 強化學習(獨立一支):


  • 交互過程,智能體(agent)和環境(environment)

  • 環境會給 agent 一個狀態(state) ,也可以說 agent 觀測(observe)到環境一個狀態

  • 環境根據狀態(state) 還會給智能體(agent)一個獎勵(reward)

  • 智能體可以通過動作(Action)來反饋給環境

基本思路將無監督問題變爲有監督問題,方法是通過交互方式來獲得交互信息,通過交互信息來產生一種狀態。agent 通過環境進行交互,收到狀態和獎賞,然後採取動作給反饋。

通過交互產生策略(policy),
獎賞可以用於定義損失函數

  • 探索(Exploration)和利用(Exploitation)對環境知道是有限,利用已有信息,還是根據已有信息來探索未來。

  • 在強化學習是將訓練和測試是混在一起

  • planning 動態規劃

  • model 如果狀態有限可以通過查表方式,如果模型雖然已知,但是空間非常大,就可以動態近似規劃

  • 對於環境模型未知的,蒙特卡洛方法

  • 強化學習是序列估計

多學科

強化學習並不是孤立,是與學多學科有關係

  • 控制論,考慮狀態連續,所以通過微分方差,機器人問題
  • 運籌學: 馬爾可夫決策過程,關注投資和交易
  • 深度學習
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章