人類奮起反擊!OpenAI遭滑鐵盧,Dota2頂級淘汰賽開場慘敗!


新智元報道

來源:OpenAI、TI8

作者:文強,三石

【新智元導讀】剛剛,OpenAI Five在Dota2最受關注的國際競賽TI8中進行了首場表演賽,對戰職業玩家隊伍paiNGame,也是TI8中最先被淘汰的一支隊伍,然而卻飲恨惜敗。雙方經過激烈對戰,AI在操控速度和團隊支援方面遠遠超過人類,但對於技能的釋放和兵線的理解還有很大提升空間。

OpenAI Five,輸了。

此前以驚人的速度不斷進化,並且成功碾壓Dota2準職業玩家後,OpenAI Five劍指TI8,挑戰現役職業人類玩家,並於剛剛結束了首場與人類的對戰。

51分鐘的時間裏,OpenAI Five雖然在控制速度和團隊支援上遠超人類,但金幣數量只有一次稍稍領先,說明對英雄技能的釋放以及兵線的理解還有待提高。

OpenAI Five 在DOTA2 5V5團隊戰中戰勝Top 05%玩家,讓好多研究強化學習的人激動了一把,更何況還有比爾·蓋茨的那句評價:“這是人工智能發展歷史上的一座重大里程碑”。

因此,對於這次在TI8的首場對戰,可謂吸足了眼球。

戰火一觸即發!

第一場演示賽,OpenAI Five對戰人類職業玩家隊伍paiN Game。

這是Pg的現役隊員

雖然pg是18支參賽隊伍中最弱的一隊(最先被淘汰),但不要忘了,這相當於參加奧運賽短跑決賽中跑得最慢的那一位,也是人類的強中之強啊。

這次對戰,OpenAI選擇的英雄分別是:潮汐獵人、矮人直升機、水晶室女、死亡先知、巫妖。PG這方則選的是:萊恩、瘟疫法師、巫醫、狙擊手和斧王。

一上場,OpenAI的兵線就比當時Benchmark賽的時候更加靠前,這是因爲從5個信使變成了1個。

根據對戰前的預測,大部分投票者還是認爲人類會贏(55%)。這或許也是OpenAI團隊懷着忐忑心情上場的原因。

實際戰況開始雙方勢均力敵,在地圖各處都在開打,難分難解,但開場20分鐘後,OpenAI Five就推倒了兩座塔,不過雙方的傷亡幾乎差不多。

幾分鐘後,OpenAI首次在金幣總量上超過了PG一點點,然後逐漸獲得優勢,23殺vs18,OpenAI Five要領先2k。

如果你以爲AI就會這樣獲勝,那麼就想錯了!

OpenAI的英雄DP總喜換守在Roahn那裏。不朽者Roshan是Dota 2中最爲強大的中立生物,他是遊戲中首個生成的單位,在比賽載入完成後即會出現,並且是唯一隨着時間成長的NPC。

OpenAI Five研究人員表示,DP守在Roshan那裏,是因爲要確認具體位置,這是訓練時Roshan隨機化的一個副作用,AI控制的英雄不知道Roshan會從哪裏出現,因此就喜歡守在那裏確認。

至於人類這邊,坦白說,斧王一直表現不好,AI雖然在整體執行力、控制技能釋放以及保命道具使用上遠超人類,但對於遊戲的理解、兵線的牽扯以及大招的釋放還有待提高

兵線對於遊戲是很重要的,如果是人類這邊進行更多帶線牽扯,AI可能會提前10分鐘被推掉高地。

也很明顯能看出來,PG並沒有認真去對戰。OpenAI這邊的C位是飛機,但在買活死亡後且復活時間有100多秒,而人類這邊一直在AI的高地下玩,這段時間本是可以推下至少一路高地的。

一直到遊戲結束,AI這邊人頭數量都是超過PG戰隊的,說明AI團戰和支援的速度更強,但是人類這邊經濟始終沒有落後太多並在取得優勢的情況下,迅速拉開經濟差,說明現役職業玩家在DOTA2的資源分配和對兵線的理解上,仍然是人類的希望。

OpenAI Five訓練:從簡單的操作中學到專業級的策略

1、OpenAI FIVE是如何工作的?

OpenAI Five是一個由5個人工神經網絡組成的隊伍,可以把它想象成一個模擬的“大腦”,是專門爲學習Dota而設計的。OpenAI Five將世界看作一個包含20000個數字的列表,這些數字對可見的遊戲狀態(僅限於人類玩家被允許看到的信息)進行編碼,並通過發出8個數字的列表來選擇一個動作。

OpenAI團隊編寫的代碼在遊戲狀態/操作和數字列表之間進行映射。 一旦經過訓練,這些神經網絡就是純粹本能的生物——它們的神經網絡實現了記憶,但不會進一步學習。OpenAI Five雖然是一個團隊,但並沒有設計特殊的溝通、交流結構,只提供他們一種激勵(incentive)。

2、OpenAI Five的訓練過程

OpenAI Five的神經網絡從隨機參數開始,使用通用的訓練系統Rapid來學習更好的參數。Rapid擁有OpenAI的5個遊戲副本,此前的報道中也提到過,OpenAI Five每天通過成千上萬的併發遊戲生成180年的遊戲數據,使用了128,000個CPU內核和256個GPU。

在每個遊戲框架中,Rapid會計算出一個數值獎勵,當有好事發生時(比如一個盟軍英雄獲得了經驗)是正數,當有壞事發生時(比如一個盟軍英雄被殺)是負數。而後Rapid應用近端策略優化(Proximal Policy Optimization)算法來更新神經網絡制定動作的參數。

3、TAKEAWAY

就像人類在規劃一天的生活時不會計劃肌肉運動一樣,OpenAI社區(包括OpenAI)也期望通過長期規劃來獲取算法,以此來解決短期和長期的計劃,可能通過強化學習得以突破。

儘管OpenAI Five的底層算法非常簡單,但在沒有提供任何人工數據的情況下,它從簡單的操作中可以學到專業級的策略。

OpenAI DOTA進化時間線:只用1年,從1v1到5v5!

2016.11.05 OpenAI選擇將Dota作爲要攻克的目標,因爲這是Twitch在Linux上最受歡迎的遊戲,並且有API。

2016.11.09 OpenAI首次在Dota庫中提交。

2017.03.09 首先在Rapid庫中提交。

2017.08.11 OpenAI在Dota國際競賽TI7中,1v1戰勝了頂級Dota 2職業玩家Dendi

2017.09.07 OpenAI在Dota 2 1v1普通模式(normal gameplay)首次戰勝了職業玩家,後續又有十幾個職業玩家與其挑戰,對戰了上千次。

2018年1月 在特定有限條件下(只有5位固定英雄,沒有守衛,不能隱身等),OpenAI Five戰勝了腳本bot。

2018年4月 OpenAI Five在有限制的情況下,戰勝了OpenAI自己組建的半職業人類玩家隊伍(雙方陣容固定而且一樣的:NEC,火槍,毒龍,冰女,巫妖;不能插眼;沒有肉山;不能用隱身道具;不能使用召喚物和幻象;沒有聖劍,瓶子,補刀斧,飛鞋,知識之書,魂淚;5只不能被攻擊的信使;不能掃描),被比爾·蓋茨稱之爲“人工智能的一大里程碑”。

2018.06.06 OpenAI Five戰勝了OpenAI自己組建的隊伍,這次的遊戲限制相比上次少了一些。很多DOTA 2玩家表示,插眼和肉山非常重要,如果排除這些因素,對戰並不公平。所以,OpenAI Five學會了插眼與打肉山。

2018.08.05 OpenAI在全球10萬+觀衆的直播見證下,戰勝了Dota 2 Top 0.5%的玩家(Blitz、Cap、Fogged、Merlini和MoonMeander,其中有四人是Dota2前職業玩家),創造了OpenAI Five Benchmark。這次的勝利解除了一些限制,比如英雄池有18個可供選擇,將AI時間調整爲更接近人類的200ms。更詳細的介紹可以看此前新智元的報道。此前,很多評論員認爲實現這一進步至少需要一年的時間,但OpenAI用差不多一個月就做到了。

2018.08.20 OpenAI被指責不是通過機器視覺而是遊戲API獲取數據,而人類玩家僅通過“看”來判斷,因此AI得出的結果和測距更加精準,從而也更具優勢。但OpenAI在賽前便公開所有條件,並不能稱“作弊”。

2018.08.22 OpenAI Five在Dota2國際競賽TI8中進行首次對戰,對戰現役職業玩家隊伍Pain Game(是TI8中第一支被淘汰的隊伍),雖然人頭數一直領先,但最終不敵對手,首場比賽以失敗告終。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章