一文讀懂AlphaGo Zero算法

AlphaGo Zero 引起巨大社會轟動

　　只告訴機器圍棋的基本規則，但是不告訴它人類摸索了上千年才總結出來的定式等圍棋戰術，讓機器完全依靠自學，打敗人類。這個題目不僅新鮮，而且熱辣。

　　上週 DeepMind AlphaGo 人工智能圍棋團隊的一篇新論文，題目是“Mastering the Game of Go without Human Knowledge”。

　　這篇論文不僅被頂級學術期刊 Nature 發表，而且立刻被媒體反覆報導，引起社會熱議。

　　這篇論文讓人驚豔的亮點有四，

　　只告訴機器圍棋規則，但是不告訴它定式等等人類總結的圍棋戰術，也不讓它讀人類棋手比賽的棋譜，讓機器完全自學成才。

　　機器完全靠自己摸索，自主總結出了定式等等圍棋戰術，而且還發現了人類上千年來沒有發現的定式。

　　從零開始，機器自學了不到 40 天，就超越了前一版 AlphaGo（AlphaGo Master），而 AlphaGo Master 幾個月前，曾以 60 : 0 的戰績，戰勝了當今幾乎所有人類圍棋高手。

　　AlphaGo Zero 的算法，比 AlphaGo Master 簡練很多。

　　不過，有些關於AlphaGo Zero 的評論，似乎渲染過度，把它的算法，說得神乎其神。本文嘗試用大白話，通俗地解釋一下 AlphaGo Zero 的算法。

　　AlphaGo Zero 的算法，說來並不複雜。理解清楚 Monte Carlo Tree Search、深度學習啓發函數和置信上限，這三個概念就行了。

　　Monte Carlo Tree Search：不窮舉所有組合，找到最優或次優位置

　　圍棋棋面總共有 19 * 19 = 361 個落子位置。假如電腦有足夠的計算能力，理論上來說，我們可以窮舉黑白雙方所有可能的落子位置，找到最優落子策略。

　　但是，如果窮舉黑白雙方所有可能的落子位置，各種組合的總數，大約是 250^150 數量級。這個數太大了，以至於用當今世界最強大雲計算系統，算幾十年也算不完。

　　有沒有不窮舉所有組合，就能找到最優或者次優落子策略的算法呢？有，Monte Carlo Tree Search 就是這樣一種算法。

　　剛剛開始教機器下圍棋的時候，機器除了規則，對圍棋一無所知。讓兩臺機器對弈，分別執黑子與白子。只要不違反規則，以均等概率，在所有合法的位置上，隨意選擇一個地點落子。

　　黑方先行，它有 361 個合法投子位置。黑方先隨機考慮一個候選位置，譬如天元（9，9）。開局是否投子在天元呢？取決於假如投子在此，是否有可能贏得勝利。如何估算贏得勝利的可能性呢？黑方模擬對局。

　　假如黑方第一手投子天元，那麼白方的第二手會投子哪裏呢？根據均等概率的初步策略，白方有 360 個合法位置，在任何一處投子的概率均等。假如白方的第二手投子在棋盤的最邊緣（0，0）。

　　接下去，黑方在剩餘的 359 個合法位置中，隨機選擇一個落子位置。接下去白方投子。如此重複，直到終局。

　　完成這樣一次對局模擬的過程，上限是 361 手，計算成本很低。

　　假如黑白兩個機器，以黑方投子天元開局，一路亂走，最終以黑方勝利。那麼根據 Monto Carlo Tree Search 算法，投子天元的開局，有可能獲勝，那麼第一手，就真的投子天元。

　　假如一路亂走，最終黑方失敗，那麼黑方就換一個候選位置，再次模擬對局。假如第二次模擬對局以黑方獲勝，就投子在第二個位置。假如失敗，那就再換到第三個候選位置，第三次模擬對局。如此重複。

　　這樣反覆亂走，收集到了第一批棋譜，當然，這些棋譜的水平，慘不忍睹。

　　水平之所以慘不忍睹，是因爲 “以均等概率，在所有合法的位置上，隨意選擇一個地點落子” 的下棋策略。

　　如何通過自學，不斷改進下棋策略？

　　AlphaGo Zero 用深度學習神經網絡來解決這個問題。

　　用深度學習網絡實現啓發函數

　　AlphaGo Zero 用 CNN 來改進圍棋投子策略。具體到 CNN 的系統架構，AlphaGo Zero 用的是 Residual 架構 ResNet。而 Residual 架構是其時任職於微軟亞洲研究院的中國人 Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun，於 2015 年發明的。

　　ResNet 的輸入是當前的棋面 S_{t} 。它的輸出有兩個，

　　當前棋面 S_{t} 的贏率，v( S_{t} )，贏率就是最終獲勝的概率，是一個數值。

　　下一手投子的位置及其概率，P( a_{t+1} | S_{t} )，這是一個向量。投子的位置可能有多種，每個位置的概率不同，概率越高，說明在以往的棋譜中，經常投子在這個位置。

　　用先前收集到的棋譜，來訓練 ResNet，擬合輸入 S_{t}，以及輸出 P( a_{t+1} | S_{t} ) 向量和當前棋面的贏率 v( S_{t} )。

　　AlphaGo Zero 只用機器自我對弈的棋譜，來訓練 ResNet。

　　當然，也可以用人類棋手的棋譜來訓練 ResNet。理論上來說，用人類棋手的棋譜來訓練 ResNet，AlphaGo Zero 的水平，會在更短時間內，獲得更快提升。

　　但是，即便不用人類棋手的棋譜，只用機器自我對弈的棋譜，來訓練 ResNet，在短短 40 天內，AlphaGo Zero 就已經超越人類棋手的水平。這個速度，實在讓人驚豔。

　　ResNet 訓練好了以後，仍然用 Monte Carlo Tree Search，繼續讓機器自我對弈。只不過把投子的策略，從均等概率的隨機投子，改爲根據 ResNet 的指導，來決定下一手的投子位置。

論文配圖：MCTS 使用神經網絡模擬落子選擇的過程

　　具體策略如下，

　　根據當前棋面 S_{t}，讓 ResNet 估算下一手可能的投子位置，a_{t+1}，及其概率 P( a_{t+1} | S_{t} )。

　　下一手的投子位置，a_{t+1} 有多種，每一種位置的贏率 v(S_{t+1}) ，和投子概率 P( a_{t+1} | S_{t} ) 不同。贏率和投子概率越高，得分越高。

　　贏率 v(S_{t+1}) 和投子概率 P( a_{t+1} | S_{t} ) ，是對以往棋譜的總結。而置信上限（Upper Confidence Bound，UCB ），是來鼓勵探索新的投子位置，越是以往很少投子的位置，UCB( a_{t+1} ) 得分越高。

　　綜合考慮下一手的棋面的贏率 v( S_{t+1} )，投子概率 P( a_{t+1} | S_{t} ) ，和置信上限 UCB( a_{t+1} )，給下一手的各個投子位置打分。取其中得分最高者，來指導 Monto Carlo Tree Search，決定下一個投子的位置。

　　用改進了投子策略的 Monte Carlo Tree Search，繼續讓機器自我對弈，這樣得到更多棋譜。然後，用這些棋譜，再次訓練 ResNet，提高贏率和投子概率的估算精度。如此循環重複，不斷提高 ResNet 的精度。

　　定式（Joseki）與投子位置熱力圖

　　投子概率 P( a_{t+1} | S_{t} ) ，反應了下一手投子位置的熱力圖。各個位置被投子的概率非常不均等，其中某些位置被投子的概率，比其它位置顯著地高。

　　這些位置，加上前面幾手的落子位置和相應的棋面，就是圍棋定式（Joseki）。

論文補充材料：訓練中AlphaGo Zero偏好的投子位置熱力圖

　　AlphaGo Zero 在五天以內，就通過機器自我對弈，總結出了常見的定式。

　　而人類發現這些定式，花費了幾百年。

　　更加令人驚豔的是，AlphaGo Zero 還發現了新的定式，而這些定式，人類迄今爲止並沒有發現。

　　點擊查看大圖：在 2 小時時間限制下，AlphaGo Zero (20 個殘差模塊，訓練 3 天) 對戰 AlphaGo Lee 的 20 局，每局展示了前 100 步棋。

　　總結一下，AlphaGo Zero 的算法非常簡潔，Monte Carlo Tree Search + ResNet。

　　與傳統的 A* 算法比較一下，Monte Carlo Tree Search 只是 A* 算法中的樹拓展的一種特例，而 ResNet 是 A* 算法中啓發函數的一種特例。

一文讀懂AlphaGo Zero算法

《Python進階》學習筆記

Leetcode 3161. 物塊放置查詢

leetcode 60 排列序列

一個docker容器暴露多個端口

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

卷積神經網絡中10大拍案叫絕的操作

吳恩達【深度學習工程師】學習筆記（七）

一文讀懂AlphaGo Zero算法

TensorFlow引入了動態圖機制Eager Execution

自門控激活函數Swish

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結