甜點
雖然早已經過了學習圍棋的年齡,大學時候學校舉辦過各個系圍棋聯賽。隨着參加工作,圍棋漸漸被遺忘了。直到 AlphaGo 出現再次引起我對圍棋的關注,不過這一次更多眼光放在 AlphaGo 上。
- 90 年代機器學習看成統計學習,看成統計學習的應用
- 05 深度學習,強化學習作爲深度學習分支
- 12 年
- 今天強化學習還是處於階段
介紹圍棋
圍棋盛行於亞洲,近些年圍棋頂級高手都基本出於中日韓三國。
- 無氣自提
- 禁止全局同行
- 地大則勝
博弈論
圍棋是有必勝策略,任何 N 步,我們看看博弈論中是如何解釋這個問題。任意有限步結束的 0 和博弈有必勝策略。用數學歸納法,假設棋盤只有一個格子,一個人放到這個格子就勝利,我會選擇先走,如何放上算失敗,那就讓對方先走,我就勝利。假設對 N 步成立,要證明 (N+1) 步,遊戲(N+1)格子,N+1 步的遊戲可以拆成 N+1 個 N 步的遊戲,所有 N + 1 步遊戲都有必勝策略,全部是先走獲勝,會讓對手獲勝,假設有一個後走人獲勝,我選擇先走。
強化學習應用
-
無人機
-
機器手臂
-
DiDi 派單
無人駕駛
金融交易
遊戲和棋牌
自然語言處理(多輪對話)
<img src="./images/chatbot.jpg">推薦系統,例如通過將推送商品和內容資源,用戶點擊就是 reward
機器學習分類
無監督: 被動
有監督/半監督
-
強化學習(獨立一支):
交互過程,智能體(agent)和環境(environment)
環境會給 agent 一個狀態(state) ,也可以說 agent 觀測(observe)到環境一個狀態
環境根據狀態(state) 還會給智能體(agent)一個獎勵(reward)
智能體可以通過動作(Action)來反饋給環境
基本思路將無監督問題變爲有監督問題,方法是通過交互方式來獲得交互信息,通過交互信息來產生一種狀態。agent 通過環境進行交互,收到狀態和獎賞,然後採取動作給反饋。
通過交互產生策略(policy),
獎賞可以用於定義損失函數
探索(Exploration)和利用(Exploitation)對環境知道是有限,利用已有信息,還是根據已有信息來探索未來。
在強化學習是將訓練和測試是混在一起
planning 動態規劃
model 如果狀態有限可以通過查表方式,如果模型雖然已知,但是空間非常大,就可以動態近似規劃
對於環境模型未知的,蒙特卡洛方法
強化學習是序列估計
多學科
強化學習並不是孤立,是與學多學科有關係
- 控制論,考慮狀態連續,所以通過微分方差,機器人問題
- 運籌學: 馬爾可夫決策過程,關注投資和交易
- 深度學習