AlphaStar 實戰技巧分析

原創

BBlue-Sky

2020-06-23 10:49

作者：新智元
鏈接：https://www.zhihu.com/question/310011363/answer/581431562
來源：知乎
著作權歸作者所有。商業轉載請聯繫作者獲得授權，非商業轉載請註明出處。

AlphaStar 實戰技巧分析

講完 AlphaStar 的訓練過程，再來分析下實戰過程。

像 TLO 和 MaNa 這樣的職業星際爭霸玩家，平均每分鐘可以做數百個操作 (APM)。這遠遠少於大多數現有的機器人，它們獨立控制每個單元，並始終保持數千甚至數萬個 APM。

在與 TLO 和 MaNa 的比賽中，AlphaStar 的平均 APM 約爲 280，遠低於職業選手，不過它的動作可能更精確。

造成 APM 較低的部分原因是 AlphaStar 使用回放開始訓練，因此模仿了人類玩遊戲的方式。此外，AlphaStar 的反應在觀察和行動之間的平均延遲 350ms。

在與 TLO 和 MaNa 對弈過程中，AlphaStar 通過原始界面與星際爭霸 2 引擎連接，這就意味着它可以直接在地圖上觀察自己的屬性和對手的可見單位，而無需移動相機。

相比之下，人類玩家必須明確管理 “注意力經濟 (economy of attention)”，並決定在哪裏對焦相機。

然而，對 AlphaStar 遊戲的分析表明，它管理着一種隱性的注意力焦點。平均而言，智能體每分鐘 “切換內容” 約 30 次，類似於 MaNa 或 TLO 的操作。

此外，在比賽之後，DeepMind 還開發了 AlphaStar 的第二個版本。和人類玩家一樣，這個版本的 AlphaStar 會選擇何時何地移動攝像頭，它的感知僅限於屏幕上的信息，行動地點也僅限於它的可視區域。

DeepMind 訓練了兩個新智能體，一個使用 raw interface，另一名必須學會控制攝像頭，以對抗 AlphaStar League。

每個智能體最初都是通過從人類數據中進行監督學習，然後按照強化學習過程進行訓練的。使用攝像頭界面的 AlphaStar 版本幾乎和 raw interface 一樣強大，在 DeepMind 內部排行榜上超過了 7000 MMR。

在表演賽中，MaNa 用 camera interface 擊敗了 AlphaStar 的一個原型版本，這個 interface 只訓練了 7 天。

這些結果表明，AlphaStar 對 MaNa 和 TLO 的成功實際上是由於優越的宏觀和微觀戰略決策，而不是快速的操作、更快的反應時間或 raw interface。

人類挑戰 20 年，AI 攻下星際爭霸有五大困難

遊戲規則規定，玩家必須選擇三種不同的外星 “種族” 中的一種——蟲族、神族或人族，它們都有各自的特點和能力（儘管職業玩家往往只專注於一種種族）。每個玩家從一些工作單元開始，收集基本資源來構建更多的單元和結構並創造新技術，這些反過來又允許玩家獲取其他資源，建立更復雜的基地和結構，並開發新的能力，可以用來智勝對手。

遊戲的難度在於，要想取勝，玩家必須在宏觀經濟的宏觀管理和微觀個體的控制之間保持謹慎的平衡。

平衡短期和長期目標以及適應意外情況的需要對往往脆弱和缺乏靈活性的系統提出了巨大的挑戰。要想解決這個問題，需要突破 AI 研究的幾個挑戰，包括:

遊戲理論：《星際爭霸》是一款像剪刀石頭布一樣是沒有最佳策略的遊戲。因此，AI 過程需要不斷探索和拓展戰略知識的前沿。

不完全信息：不像國際象棋或圍棋那樣，玩傢什麼信息都能看到，關鍵信息對星際玩家是隱藏的，必須通過 “偵察” 來主動發現。

長期規劃：像許多現實世界中的問題一樣，因果關係不是瞬間產生的。遊戲也可以在任何地方花費一個小時完成，這意味着在遊戲早期採取的行動可能在很長一段時間內都不會有回報。

實時：不像傳統的棋類遊戲，玩家在接下來的動作之間交替，《星際爭霸》玩家必須隨着遊戲時間的推移不斷地執行動作。

大型活動空間：數百個不同的單元和建築必須同時被實時控制，從而形成一個可能性組合空間。

正是由於這些巨大的挑戰，星際爭霸已經成爲人工智能研究的 “大挑戰”。自 2009 年發佈 BroodWar API 以來，《星際爭霸》和《星際爭霸 2》的競賽一直在進行，包括 AIIDE 星際爭霸 AI 競賽、CIG 星際爭霸競賽、學生星際爭霸 AI 競賽和《星際爭霸 2》AI 階梯賽。

DeepMind 在 2016 年和 2017 年與暴雪合作發佈了一套名爲 PySC2 的開源工具，其中包括有史以來最大的一組匿名遊戲回放。

現在，經過兩年的打造，繼 AlphaGo 之後，DeepMind 剛剛問世的 AlphaStar 已經取得了飛速進展。

最後，AlphaStar論文即將發佈，更多技術細節請閱讀：

新智元：AlphaStar 稱霸星際爭2！AI 史詩級勝利，DeepMind 再度碾壓人類

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

AlphaStar 實戰技巧分析

AlphaStar 實戰技巧分析

人類挑戰 20 年，AI 攻下星際爭霸有五大困難

BERT精髓詳解

AlphaStar 實戰技巧分析

深入淺出看懂AlphaGo Zero 深入淺出看懂AlphaGo Zero （文章最後有原AlphaGo Zero論文地址）

NoSql是什麼？

DeepMind:星際爭霸2：強化學習新挑戰（論文翻譯）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結