超級圍棋AI ELF OpenGo全面開源!FAIR田淵棟揭祕訓練過程

ELF OpenGo發佈之後,不少圍棋愛好者們對其進行測試,發現這是一款級爲先進的人工智能陪練助手。事實上,這款開源機器人在與人類選手的對弈當爲取得了耀眼的成績——包括與頂級職業圍棋選手下出了20比0的勝績——且開始被人工智能研究社區所廣泛採用,用以運行他們自己的圍棋實驗或重現其他人的研究成果。ELF OpenGo在AI圍棋錦標賽當中還同衆多與之同源的修改版AI機器人進行了對抗。目前,ELF OpenGo已經成爲美國圍棋協會的一員,以混雙的形式協同人類選手共同對抗其他人機組合圍棋隊伍。

Facebook AI Research (簡稱FAIR)團隊日前公佈了與ELF OpenGo相關的最新功能與研究成果,包括從零開始重新練習而成的更新模型。此外,我們還發布了這款機器人的Windows平臺可執行版本,旨在幫助圍棋選手們更輕鬆地利用這套系統作爲訓練輔助工具;另外,我們還公開了ELF OpenGo在87000場專業圍棋對弈當中的歸檔分析信息。

現在,選手們可以查看我們的系統如何對早自十八世紀的頂尖職業選手棋譜進行理解,詳盡評估他們的表現,並深刻解析特定棋局當中的具體棋步。我們很高興地看到這套多功能平臺能夠幫助研究人員們更好地理解AI技術,也很高興看到圍棋社區的選手們樂於利用它磨練自己的技能並深入鑽研這門古老技藝中的全新天地。

韓國圍棋協會公關副總監Beomgeun Cho表示,“我可以肯定地講,ELF OpenGo項目給韓國圍棋社區帶來了巨大的影響。自從其問世以來,幾乎所有高水平韓國職業棋手都開始一身是膽和ELF Go程序分析自己與其他選手間的對弈。也正因爲如此,該項目的出現不僅提高了韓國圍棋的水平,更是將全球圍棋技藝推向新的高點。”

打造一款服務於每個人的強大AI機器人

當DeepMind在2017年發佈其AlphaGo Zero圍棋機器人的出色表現時,可以看到這一以深度強化學習(簡稱RL)爲核心的試驗性研究成果確實爲擁有四千年曆史的圍棋運動注入了新的生命力。考慮到圍棋當中固有的高分枝數量、複雜的交互機制以及精妙的模式設計等因素,行之有效的圍棋機器人必須有能力推導出各類非直觀且極爲縝密的結論,並藉此探索並發現新的行棋策略。圍棋帶來了一種包含數百萬種潛在移動組合的環境,且其中沒有任何隱性或者與偶然性相關的遊戲機制(這一點與打骰或撲克遊戲完全不同)。然而,雖然AlphaGo Zero及其繼承者AlphaZero確實證明了人工智能系統有能力在訓練之後擊敗一切人類選手,但它們更像是深度RL的一種理想範例,而非能夠切實服務於廣泛AI研究社區的普遍性工具。

作爲我們開放科學宗旨的重要組成部分,我們於去年發佈了AlphaZero的重新實現方案,旨在幫助更多研究實驗室得以更深入地理解這些方法的工作原理。我們對其模型進行的開源也爲未來的研究工作提供了必要的基準。我們意識到,由於需要大量計算資源作爲支撐,即使是擁有同樣的開源代碼,大多數研究人員仍然無法重現我們的結果。正因爲如此,我們決定在新論文當中從零開始重新訓練ELF OpenGo。這項工作證明了爲什麼AI在對陣人類選手時能夠表現出如此強大的棋力,亦闡述了現有技術的侷限性,從而幫助研究人員更好地理解其中的潛在機制並將其應用於更多其它場景。

對於整個研究界來說,我們新近更新的模型與代碼代表着ELF OpenGo的最佳版本。此次發佈囊括我們的2000萬份自我對弈記錄以及1500套用於生成這些記錄的中間模型數據集,同時亦進一步降低了對於計算資源的需求量(自我對弈是訓練過程當中硬件資源佔用量最大的部分)。對於希望深入研究基於RL的圍棋機器人如何學習技巧並掌握訣竅的研究人員,推薦大家參閱我們的論文——其中詳細介紹了大量消融研究結果,並在評估過程當中不斷修改各項特徵以更好地理解算法的具體特性。

揭示深度RL的優勢與侷限

ELF OpenGo之所以擁有強大的性能,關鍵在於其在學習方式層面與人類有着本質區別。深度RL雖然擁有不斷試錯(即系統探索不同的操作,同時獲得成功與失敗的反饋,並從中學習能夠帶來成功的行動)這種在一般意義上與人類相仿的天然屬性,但其中的具體機制卻完全不同。舉例來說,ELF OpenGo可能只會從自我對弈的勝、負結果當中學習知識。它並不知道哪些特定棋步對勝負結果產生最爲重大的影響。與人類選手不同,ELF OpenGo也不會從經驗豐富的成熟棋手身上學習判斷棋步好壞的心得,也沒有機會與那些水平更高的人類選手對弈。我們的最終模型完全依靠自我對弈實現訓練,整個過程共產生了2000萬盤棋局。

當我們利用自己的模型對人類選手的棋局盤面進行分析時,我們發現其預測能力在早期學習階段就已經達到了相當穩定的水平——具體時間點位於總訓練時長的10%處。而隨着模型的繼續訓練,其技藝水平不斷提高,並在60%這一時間節點處擊敗了上代ELF OpenGo模型。事實上,即使是上代ELF OpenGo系統也已經超越了人類專業棋手:在與四位全球排名前三十的專業棋手的對弈當中,取得了20比0的耀眼戰績。ELF OpenGo進一步證實了AlphaZero之前的發現,即人類選手總結出的大部分棋步(即使來自最頂尖的專業人士)距離完美仍有很長的道路要走。

但正如在其它領域誇大AI的超人表現將有失偏頗一樣,我們對於ELF OpenGo學習過程的探索同樣揭示出深度RL中所存在的特有侷限。與AlphaZero一樣,我們的系統一直無法完全掌握“徵子”概念——事實上,這是圍棋運動中初學者最早理解的一種常見技術,指某方選手將對方的棋子引入沿對象線延長的大龍形包圍當中(最終吃掉的棋子將排布出類似於樣子的梯級,因此英文名爲ladder)。與其它棋步序列相比,徵子更多依託於對盤面形勢的預判。人類圍棋選手通常都能夠預見到未來30步甚至更多棋步後的盤面形勢,但DeepMind表示AI系統往往要到訓練過程的後期纔會總結出此類固定棋步組合。

image

在上圖當中,執黑方試圖進行“徵子”,但白方仍然有機會突圍。人類選手能夠很快學會“徵子”這一模式,相比之下機器人的學習速度就要慢得多,而且無法從個別徵子案例中總結概念並加以推廣。

爲了進一步研究這一弱點,我們整理出一套包含100種徵子場景的數據集,並利用其對ELF OpenGo的性能進行評估。在當前的模型設計情況下,這些場景很可能是以強化學習(即徵子的延伸需要額外的訓練來鞏固)的方式實現,而非被作爲可供系統推廣的推導性模式。ELF OpenGo依賴於一項名爲蒙特卡洛樹搜索(簡稱MCTS)的技術以預測未來可能出現的棋步。人類選手能夠很快弄清徵子的概念及其將會帶來的固定棋步序列,從而快速分析並得出計算結果。相比之下,MCTS則是一種概率方法,這意味着即使每一獨立正確棋步都擁有高概率,AI系統在長序列當中選取出所有正確棋步的概率仍然很低。

更廣泛地說,ELF OpenGo項目使得其他AI研究人員能夠獲取此類系統工作原理的第一手經驗。這將幫助整個社區提高對訓練過程的理論性理解水平,發現這些算法中的新缺陷,並最終以更低的計算資源需求實現更強的性能表現。

有趣的是,ELF OpenGo會以與人類選手相反的方向學習——其基於RL的學習方法更關注棋盤上的終局階段,而非開頭或中局部分。由於激勵機制完全圍棋勝敗結果建立,因此決定勝敗的直接相關棋步將擁有極高的分析優先級,這使得RL推動ELF OpenGo更積極地解讀一盤棋是如何結束的——而非如何開始。與此不同,人類選手則更傾向於關注當前盤面情況,重視短期及區域性優勢,同時持續推進。儘管我們的研究結果主要面向圍棋領域,但這亦證明RL技術擁有着共通的侷限性。雖然這能夠帶來令人印象深刻的整體表現,但如果過度關注與最終結果直接相關的短期因素,那麼其必然會在某些問題上遭遇滑鐵盧——甚至因此遭遇惡意利用。

利用AI評估圍棋發展歷程

在對ELF OpenGo進行重新訓練與重新實現的過程當中,我們意識到其不僅代表着現代AI棋手,同時也可以作爲一款回顧性工具對過去四個世紀內的圍棋棋譜進行分析。爲什麼不把ELF OpenGo對這些棋局以及棋手的分析結果與大家分享呢?

image

在這一輪對弈當中,十九世紀日本職業圍棋選手桑原秀策下出了其人生中最著名的“耳赤之局”。秀策最重要的一步即盤面中的“a”位,而ELF OpenGo卻以滿滿的信心認爲“b!”纔是這一步的最佳落棋位置。126號棋子爲對手的上一步落子。

通過這樣的實現方式,我們最終將ELF OpenGo對87000盤人類對弈記錄的分析結論整理成一款交互式工具。這套數據集涵蓋從1700年到2018年的漫長曆史,我們的系統會根據機器人與人類玩家對下一步行動預測間的一致性來評估特定棋步的質量水平。

雖然這款工具比較傾向於對單一特定比賽進行深入分析,但其同時也展現出圍棋技藝層面的許多重要趨勢。在對超過300年的圍棋發展歷程進行分析之後,該機器人發現圍棋選手的平均水平得到了穩定的提升。但根據ELF OpenGo的反饋,其它一些指標——例如一盤棋中最臭的一步,或者說導致獲勝概率下降幅度最大的一步——在圍棋發展史中曾多次經歷改善與惡化。最臭一步在十九世紀末與二十一世紀初的平均水平最高。

另外,我們也可以對個別選手進行分析,例如歷史上最著名的圍棋大師之一桑原秀策,即在個人圍棋生涯的不同階段展現出多種能夠被ELF OpenGo明確總結出的趨勢性風格變化。他的早期行棋思路與ELF OpenGo存在着顯著差異,但隨着時間推移,他的思維方式開始與我們的AI系統變得更加一致。另外,我們還分析了桑原秀策在17歲時對陣48歲幻庵因碩所下出的成名一戰“耳赤之局”。有趣的是,ELF OpenGo更喜歡後者這位更加成熟的圍棋大師的棋步。

image

在中局階段(第60手到第120手),ELF OpenGo對人類選手所採取實際棋步的認同/匹配比例(棋譜來自1700年至2018年)。

image

棋局過程中導致勝率遭遇最大降幅的“最臭一手”棋步(從1700年到2018年的平均情況,百分比越低越好)。

image

十九世紀日本職業圍棋選手桑原秀策在早期對弈中各棋步受到ELF OpenGo肯定的比例。

image

桑原秀策在職業生涯中期對弈時各棋步受到ELF OpenGo肯定的比例。

ELF OpenGo還凸顯出AI技術對於圍棋運動的重大影響。舉例來說,ELF OpenGo對人類棋手行棋認同率隨時間推移而不斷提升,這表明這一運動的整體水平在漫長的積累之後確實有所提升。

我們的系統對於特定選手的評價也會隨着時間推移而提升,這證明這些職業選手的水平一直在進步。雖然事後看來,這些觀察結果可能早就在大家的意料之中,但ELF OpenGo對這種進展做出了量化,並確定了個人行棋風格與對弈表現變化最明顯的年份。

2016年,ELF OpenGo對人類棋手的認同度快速提升,這再次證明強大AI棋手的出現確實能夠爲人類技能帶來巨大的推動作用。雖然這種相關性也許沒有決定性的說服力——人類選手的水平提升也有可能源自其它一些原因的影響——但這仍是個值得關注的案例,證明針對某一特定任務進行訓練的系統有望從當前及歷史的角度爲更爲廣泛的分析領域產生積極作用。

圍棋機器人的未來發展方向

ELF OpenGo已經得到世界各地研究團隊與棋手的廣泛使用,而我們也很高興能夠在去年將其擴展至更具生命力的開源社區。對於圍棋愛好者們來講,我們的系統能夠對專業對弈進行分析,從而充當一款強大的新型訓練輔助工具——是的,您將因此擁有一位超人級別的覆盤解析助手。另外,我們還改善了機器人本身的訪問體驗以支持這種訓練用途,包括爲圍棋選手們提供可下載並作爲對弈對手的Windows可執行版本。

然而,關於ELF OpenGO乃至其它規模更大的AI開發項目,我們還有更多工作要做。我們的系統雖然能夠擊敗人類專家,但卻仍然需要經歷數百萬場自我對弈,這樣的效率顯然無法令人滿意。人類是如何從一小部分案例中總結經驗,同時更快總結出“徵子”等概念以快速提升圍棋技藝的?通過充分利用我們的工具與分析功能,我們希望幫助整個AI社區更快爲這些問題找到答案。

原文鏈接:

https://ai.facebook.com/blog/open-sourcing-new-elf-opengo-bot-and-go-research/?ref=shareable

image

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章