Deep Learning for Video Game Playing《DQN 在電子遊戲中的應用》

在本文中,我們回顧了深度學習的最新進展,介紹了它們如何應用於玩不同類型的視頻遊戲,例如第一人稱射擊遊戲,街機遊戲和實時策略遊戲。 我們分析了不同遊戲類型對深度學習系統的獨特要求,並強調了將這些機器學習方法應用於視頻遊戲(例如一般遊戲,處理巨大決策空間和稀疏獎勵)的情況下的重要開放挑戰。

 

I. INTRODUCTION

現在,將AI技術應用於遊戲已成爲一個成熟的研究領域,有多個會議和專門的期刊。在本文中,我們回顧了視頻遊戲玩法深度學習的最新進展,並採用了遊戲研究平臺,同時重點介紹了重要的開放挑戰。我們撰寫本文的動機是從不同類型的遊戲,它們對深度學習構成的挑戰以及如何使用深度學習玩這些遊戲的角度來回顧該領域。存在關於深度學習的各種評論文章[39],[81],[126],以及關於強化學習的調查[142]和深度強化學習[87],這裏我們重點介紹這些應用於視頻遊戲的技術。
特別是,在本文中,我們着重介紹已廣泛用於基於DL的遊戲AI的遊戲問題和環境,例如Atari / ALE,Doom,Minecraft,StarCraft和賽車。此外,我們回顧了現有工作並指出了尚待解決的重要挑戰。我們對旨在通過像素或特徵向量在沒有現有前向模型的情況下很好地玩特定視頻遊戲(與圍棋等棋盤遊戲相反)的方法感興趣。分析了幾種遊戲類型,以指出它們對人類和機器玩家構成的衆多挑戰。
重要的是要注意,本文中未涉及到AI在遊戲中的許多用途以及在遊戲中的許多用途。遊戲AI是一個廣闊而多樣的領域[171],[170],[93],[38],[99]。本文着重介紹瞭如何很好地玩視頻遊戲的深度學習方法,同時以可信,有趣或類似人的方式對玩遊戲進行了大量研究[59]。 AI還用於對玩家的行爲,經驗或偏好進行建模[169],或生成遊戲內容,例如關卡,紋理或規則[130]。深度學習遠非遊戲中使用的唯一AI方法。其他著名的方法包括蒙特卡洛樹搜索[18]和進化計算[115],[90]。在下面的內容中,重要的是要意識到本文範圍的限制。
本文的結構如下:下一節概述了應用於遊戲的不同深度學習方法,然後概述了當前正在使用的不同研究平臺。第四節回顧了DL方法在不同視頻遊戲類型中的使用,第五節給出了該領域的歷史概述。在本文結尾處,我們指出了第六節中的重要開放挑戰,而在第七節中則給出了結論。

II. DEEP LEARNING IN GAMES OVERVIEW

本節簡要概述了遊戲環境中的神經網絡和機器學習。 首先,我們描述了常見的神經網絡體系結構,然後概述了機器學習任務的三個主要類別:監督學習,無監督學習和強化學習。 這些類別中的方法通常基於梯度下降優化。 我們還將重點介紹進化方法以及結合了幾種優化技術的混合方法的一些示例。

A.神經網絡模型
人工神經網絡(ANN)是通用功能,由它們的網絡結構和每個圖形邊緣的權重定義。由於它們的通用性和逼近任何連續實值函數(具有足夠的參數)的能力,它們已被應用於各種任務,包括視頻遊戲。這些人工神經網絡的體系結構大致可分爲兩大類:前饋和遞歸神經網絡(RNN)。前饋網絡採用單個輸入,例如遊戲狀態的表示,並輸出每個可能動作的概率或值。卷積神經網絡(CNN)由可訓練的過濾器組成,適用於處理圖像數據,例如來自視頻遊戲屏幕的像素。
RNN通常應用於時間序列數據,其中網絡的輸出取決於先前時間步長[165],[82]中網絡的激活。訓練過程與前饋網絡相似,除了網絡的先前隱藏狀態與下一個輸入一起反饋到網絡中。這樣可以通過記住先前的激活來使網絡變得上下文相關,當從遊戲中獲得的單個觀察結果不能代表完整的遊戲狀態時,這將非常有用。對於視頻遊戲,通常使用一堆卷積層,然後是遞歸層和完全連接的前饋層。
以下各節將簡要概述不同的優化方法,這些方法通常用於通過深度神經網絡學習遊戲行爲。這些方法搜索最佳參數集以解決某些問題。優化還可以用於查找超參數,例如網絡體系結構和學習參數,並且在深度學習中得到了很好的研究[13],[12]。

B.優化神經網絡1)監督學習
在監督學習中,從示例中訓練模型。在訓練過程中,要求模型做出正確答案已知的決策。誤差,即所提供的答案和基本事實之間的差異,被用作更新模型的損失。目標是實現一個模型,該模型可以推廣訓練數據以外的內容,從而在從未見過的示例中表現出色。大型數據集通常可以提高模型的概括能力。
在遊戲中,此數據可以來自遊戲軌跡[16](即人類在被記錄的同時通過遊戲進行遊戲),從而允許代理根據人類在給定狀態下執行的操作來學習從輸入狀態到輸出操作的映射。如果遊戲已經被另一種算法解決,則可以將其用於生成訓練數據,如果第一種算法太慢而無法實時運行,則這很有用。雖然從現有數據中學習如何使代理人能夠快速學習最佳實踐,但它通常很脆弱。可用數據的生產成本可能很高,並且可能缺少代理應該能夠處理的關鍵方案。對於遊戲而言,該算法僅限於數據中可用的策略,並且本身無法探索新策略。因此,在遊戲中,監督算法通常通過強化學習算法與額外的訓練相結合[133]。
監督學習在遊戲中的另一個應用是學習遊戲的狀態轉換。代替提供給定狀態的動作,神經網絡可以學習預測動作狀態對的下一個狀態。因此,網絡本質上是在學習遊戲模型,然後可以將其用於更好地玩遊戲或執行計劃[45]。

2)無監督學習
代替學習數據及其標籤之間的映射,無監督學習的目的是發現數據中的模式。這些算法可以瞭解數據集的特徵分佈,可用於對相似數據進行聚類,將數據壓縮爲其基本特徵,或創建具有原始數據特徵的新合成數據。對於獎勵稀少的遊戲(例如蒙特祖瑪的復仇),以無人監督的方式從數據中學習是一種潛在的解決方案,也是一項重要的開放式深度學習挑戰。
深度學習中最著名的無監督學習技術是自動編碼器,它是一種神經網絡,試圖學習恆等函數,從而使輸出與輸入相同[80],[117]。該網絡由兩部分組成:將輸入x映射到低維隱藏向量h的編碼器,以及嘗試從h重構x的解碼器。主要思想是通過使h較小,網絡必須學會壓縮數據並因此獲得良好的表示力。研究人員開始將這種無監督算法應用於遊戲,以幫助將高維數據提取爲更有意義的低維數據,但是這一研究方向仍處於早期階段[45]。有關監督學習和無監督學習的更詳細概述,請參見[126],[39]。

3)強化學習方法
在強化學習(RL)中,代理通過與提供獎勵信號給代理的環境交互來學習行爲。在RL設置中,可以輕鬆地將視頻遊戲建模爲環境,其中將玩家建模爲代理商,並在每個步驟中採取一組有限的動作,並根據遊戲得分來確定獎勵信號。
在RL中,代理依賴於獎勵信號。這些信號可能會頻繁出現,例如遊戲中分數的變化,也可能不經常出現,例如座席是贏還是輸。電子遊戲和RL配合得很好,因爲大多數遊戲都會爲成功的策略提供獎勵。開放世界遊戲並不總是具有明確的獎勵模型,因此對RL算法具有挑戰性。
將RL應用到獎勵稀疏的遊戲時,面臨的主要挑戰是確定獲得獎勵信號時如何將功勞分配給許多先前的行爲。狀態s的獎勵R(s)需要傳播回導致獎勵的動作。從歷史上看,有幾種不同的方法可以解決此問題,下面將對此進行描述。如果可以將環境描述爲馬爾可夫決策過程(MDP),則代理可以構建未來狀態及其獎勵的概率樹。然後可以使用概率樹來計算當前狀態的效用。對於RL代理,這意味着學習模型P(s'| s,a),其中P是狀態s'給定狀態s和動作a的概率。對於模型P,可以通過以下公式計算效用:

其中,γ是未來狀態效用的折現因子。 這種稱爲自適應動態規劃的算法,由於可以直接處理信用分配問題,因此可以很快收斂[142]。 問題在於,它必須在整個問題空間上構建概率樹,因此對於大問題來說是棘手的。 由於本文中涉及的遊戲被認爲是“大問題”,因此我們將不進一步詳細介紹該算法。
解決此問題的另一種方法是時間差異(TD)學習。 在TD學習中,代理根據當前效用等於當前報酬加上下一個狀態的效用值的觀察值直接學習效用U [142]。 它不是學習狀態轉換模型P,而是學習爲每個狀態建模效用U。 更新
2 U的等式爲:

其中α是算法的學習率。 上面的方程式沒有考慮s'的選擇方式。 如果在st找到獎勵,它將僅影響U(st)。 代理下次在st-1時,U(st-1)將知道將來的獎勵。 隨着時間的流逝,這將向後傳播。 同樣,較少見的過渡對效用價值的影響也較小。 因此,U將收斂到與從ADP獲得的值相同的值,儘管速度較慢。
TD的替代實現可以學習對狀態-動作對的獎勵。 這允許代理在給定狀態的情況下選擇動作,而沒有如何轉換到未來狀態的模型。 因此,這些方法被稱爲無模型方法。 流行的無模型RL方法是Q學習[162],其中狀態的效用等於狀態的最大Q值。 Q學習的更新公式爲:

在Q學習中,通過選擇最著名的未來狀態-動作對來考慮未來獎勵。在稱爲SARSA(狀態行動-獎勵狀態行動)的類似算法中,僅當選擇了下一個a且已知下一個s時,纔會更新Q(s,a)[118]。使用該操作對代替最大Q值。與非策略性Q學習相反,這使SARSA成爲一種基於策略的方法,因爲SARSA的Q值說明了代理自己的策略。
Q學習和SARSA可以使用神經網絡作爲Q函數的函數逼近器。給定的Q更新方程式可用於爲狀態-動作對提供新的“預期” Q值。然後可以在監督學習中更新網絡。
代理的政策π(s)確定在給定狀態s時應採取的行動。對於Q學習,一個簡單的策略是始終採取具有最高Q值的動作。但是,在訓練的早期,Q值不是很準確,代理商總是會因爲獲得少量獎勵而陷入困境。學習者應該優先研究新動作以及對所學知識的利用。這個問題被稱爲多武裝匪徒問題,並且已經得到了很好的研究。 ε貪婪策略是一種簡單的方法,它以ε概率選擇(估計的)最佳動作,否則選擇隨機動作。
RL的一種方法是在策略的參數空間中執行梯度下降。設πθ(s,a)是在給定參數θ的情況下在狀態s採取動作a的概率。來自REINFORCE算法家族的基本策略梯度算法[164]使用梯度∇θ􏰂aπθ(s,a)R(s)更新θ,其中R(s)是從s向前獲得的折現累積獎勵。 。實際上,從策略中抽取了可能採取的措施的樣本,並對其進行了更新以增加將來返回更成功的措施的可能性。這很適合神經網絡,因爲π可以是神經網絡,而θ可以是網絡權重。

Actor-Critic方法將策略梯度方法與TD學習相結合,其中actor學習策略πθ(s,a)
使用策略梯度算法,評論者使用TD學習[R]學習近似R。總之,它們是迭代學習策略的有效方法。在演員批評家方法中,可以有一個單獨的網絡來預測π和R,也可以有兩個單獨的網絡。對於應用於深度神經網絡的強化學習的概述,我們建議Arulkumaran等人的文章。 [2]。
4)進化方法
迄今爲止,基於定義的誤差的區分,迄今爲止討論的優化技術依賴於梯度下降。但是,諸如進化算法之類的無導數優化方法也已廣泛用於訓練神經網絡,包括但不限於強化學習任務。這種通常稱爲神經進化(NE)的方法可以優化網絡的權重及其拓撲結構/體系結構。由於其通用性,NE方法已廣泛應用於不同類型的視頻遊戲。有關此領域的完整概述,請參考感興趣的讀者閱讀我們的NE調查論文[115]。
與基於梯度下降的訓練方法相比,NE方法的優點是不需要網絡是可區分的,並且可以應用於有監督,無監督和強化學習問題。演化拓撲的能力以及權重潛在地提供了一種自動化神經網絡體系結構開發的方法,目前需要大量的領域知識。這些技術的前景是,進化可以找到一種神經網絡拓撲,這種神經網絡拓撲比現有的人類設計架構更擅長玩某種遊戲。傳統上,NE已被用於解決輸入維數比典型深度學習方法低的問題,最近Salimans等人。 [121]表明,依靠足夠的計算資源,依賴於通過隨機噪聲進行參數探索而不是計算梯度的演化策略可以取得與當前Atari電子遊戲深度RL方法相當的結果。
5)混合學習方法
最近,研究人員開始研究視頻遊戲的混合方法,該方法將深度學習方法與其他機器學習方法結合在一起。 Alvernaz和Togelius [1]以及Poulsen等人。 [113]進行了實驗,將通過梯度下降訓練的深度網絡與通過人工進化訓練的網絡合並,將濃縮的特徵表示饋入網絡。這些混合方法旨在將兩種方法中的最佳方法結合起來,因爲深度學習方法能夠直接從高維輸入中學習,而進化方法則不依賴於可區分的架構,並且在獎勵稀疏的遊戲中表現良好。一些結果表明,無梯度方法在訓練的早期似乎更好,以避免過早收斂,而基於梯度的方法則在需要較少探索的情況下最終會更好[139]。
另一種用於棋盤遊戲的混合方法是AlphaGo [133],它依靠深度神經網絡和樹搜索方法來擊敗Go語言的世界冠軍,[36]則將計劃應用在預測模型之上。
通常,將本體遺傳學RL(例如Q學習)與系統發育方法(例如進化算法)具有很大的影響力,因爲它可以在不同的時間尺度上進行併發學習[153]。

III. GAME GENRES AND RESEARCH PLATFORMS

 

毋庸置疑,由於在公開數據集上比較結果的約定,深度學習方法的快速發展毫無疑問。遊戲AI中類似的慣例是使用遊戲環境來比較遊戲算法,其中,根據得分或獲勝的能力對方法進行排名。 IEEE計算智能與遊戲大會之類的大會在各種遊戲環境中都開展流行的比賽。
本節介紹與深度學習相關的文獻中流行的遊戲類型和研究平臺;圖2中顯示了一些示例。對於每種類型,我們簡要概述該類型的特徵,並描述玩該類型遊戲的算法所面臨的挑戰。本文討論的視頻遊戲已在很大程度上取代了較早的較簡單控制問題,這些問題長期以來一直是主要的強化學習基準,但對於現代RL方法而言通常太簡單了。在這樣的經典控制問題中,輸入是一個簡單的特徵向量,描述了位置,速度和角度等。此類問題的流行平臺是rllab [29],其中包括經典問題,例如杆平衡和山地車問題,以及MuJoCo(帶接觸的多關節動力學),一種物理引擎,用於複雜的控制任務,例如人形行走任務[152]。

A.街機遊戲
在七十年代末和八十年代初的街機櫃,家用視頻遊戲機和家用計算機中發現的經典街機遊戲,在過去十年中一直被用作AI基準。這種遊戲類型的代表平臺是Atari 2600,Nintendo NES,Commodore 64和ZX Spectrum。大多數經典的街機遊戲的特點是在二維空間中運動(有時以等軸測圖表示,以提供三維運動的幻覺),大量使用圖形邏輯(遊戲規則由子圖形或圖像的交集觸發) ,連續時間進度以及連續空間或離散空間運動。玩此類遊戲的挑戰因遊戲而異。大多數遊戲都需要快速的反應和精確的時間安排,而一些遊戲,尤其是諸如田徑運動(Track&Field,Konami,1983年)之類的早期體育遊戲幾乎完全依賴於速度和反應。許多遊戲需要對幾個同時發生的事件進行優先級排序,這需要能夠預測遊戲中其他實體的行爲或軌跡的能力。這個挑戰在例如Tapper(Bally Midway,1983),但也以不同的方式參與了平臺遊戲的一部分,例如Super Mario Bros(Nintendo,1985)和射擊遊戲,例如Missile Command(Atari Inc.,1980)。另一個常見的要求是在迷宮或其他複雜環境中導航,例如Pac-Man(Namco,1980)和Boulder Dash(First Star Software,1984)這樣的遊戲就清楚地說明了這一點。某些遊戲,例如蒙特祖瑪的復仇(Parker Brothers,1984),需要長期計劃,涉及
記憶暫時無法觀察的遊戲狀態。有些遊戲具有不完整的信息和隨機性,而另一些則具有完全確定性和完全可觀察性。
用於深度學習方法的最著名的遊戲平臺是Arcade學習環境(ALE)[10]。 ALE建立在Atari 2600模擬器Stella的頂部,幷包含50多種原始的Atari 2600遊戲。該框架提取遊戲分數,160×210屏幕像素和RAM內容(可用作遊戲代理的輸入)。 ALE是第一批使用原始像素作爲輸入的深度RL論文中探討的主要環境。通過使代理能夠從視覺輸入中學習,ALE因此與強化學習文獻中的經典控制問題(如購物車杆和山地車問題)有所不同。 ALE環境的概述和討論可以在[91]中找到。
經典街機遊戲的另一個平臺是逆向學習環境(RLE),該平臺目前包含爲超級任天堂娛樂系統(SNES)發行的七款遊戲[15]。這些遊戲中許多都具有3D圖形,並且控制器允許進行720多種動作組合。因此,SNES遊戲比Atari 2600遊戲更加複雜和真實,但是RLE尚未像ALE那樣流行。
通用視頻遊戲AI(GVG-AI)框架[116]允許使用視頻遊戲描述語言(VGDL)[122]輕鬆創建和修改遊戲和關卡。這是測試多個遊戲或關卡上的座席普遍性的理想選擇。 GVG-AI包括100多個經典街機遊戲,每個遊戲都有五個不同的級別。
賽車遊戲
競速遊戲是指玩家被要求控制某種車輛或角色以便在儘可能短的時間內達到目標或在給定時間內沿軌道盡可能遠地穿越的遊戲。通常,遊戲從玩家控制的車輛後面採用第一人稱視角或有利位置。絕大多數賽車遊戲都將連續輸入信號作爲方向盤輸入,類似於方向盤。某些遊戲,例如《極限競速》(Microsoft Studios,2005–2016)或《真實賽車》(Firemint和EA Games,2009–2013)系列,允許複雜的輸入,包括變速桿,離合器和手剎,而側重於街機諸如“極品飛車”(電子藝術,1994–2015)系列中的遊戲通常具有較簡單的輸入集,因此分支系數較低。
在所有賽車遊戲中普遍存在的挑戰是,代理商需要使用微調的連續輸入來控制車輛的位置並調整加速度或制動,以便儘可能快地穿越軌道。最佳地做到這一點至少需要短期計劃,向前或向後翻一兩步。如果遊戲中需要管理一些資源,例如燃料,損壞或提速,則需要進行長期規劃。當其他車輛出現在賽道上時,在試圖管理或阻止超車時會增加一個對抗性計劃方面。通常在存在隱藏信息(軌道上不同部分上其他車輛的位置和資源)的情況下進行此計劃。

 

C.第一人稱射擊遊戲(FPS)
最近出現了更高級的遊戲環境,用於第一人稱射擊遊戲(FPS)中的視覺強化學習代理。與ALE基準中的經典街機遊戲相比,FPS具有帶有部分可觀察狀態的3D圖形,因此是學習時更現實的環境。通常,觀點是由玩家控制的角色,儘管一些FPS類別中的遊戲大多采用過分的觀點。第一人稱射擊遊戲的設計使得挑戰的一部分就是簡單的快速感知和反應,特別是發現敵人並迅速瞄準他們。但是,還存在其他認知挑戰,包括在複雜的三維環境中的定向和移動,預測多個對手的動作和位置以及在某些遊戲模式中還進行基於團隊的協作。如果使用視覺輸入,則存在從像素提取相關信息的挑戰。
在FPS平臺中有ViZDoom,該框架允許代理商使用屏幕緩衝區作爲輸入來播放經典的第一人稱射擊遊戲《毀滅戰士》(id Software,1993–2017)[73]。 DeepMind Lab是一個基於Quake III Arena(id Software,1999)引擎的3D導航和解謎任務的平臺[6]。
D.開放世界遊戲
Minecraft(Mojang,2011)或Grand Theft Auto(Rockstar Games,1997–2013)系列等開放世界遊戲的特點是非常非線性的遊戲玩法,需要探索的大型遊戲世界既沒有設定目標,也有很多目標內部秩序不明確,在任何給定時間都有很大的行動自由。代理商面臨的主要挑戰是探索世界並設定切合實際和有意義的目標。由於這是一個非常複雜的挑戰,因此大多數研究都使用這些開放環境來探索強化學習方法,這些方法可以重用已學知識並將其轉移到新任務中。馬爾默計劃(Project Malmo)是建立在開放世界遊戲《我的世界》(Minecraft)之上的平臺,可用於定義許多不同和複雜的問題[65]。
E.實時策略遊戲
策略遊戲是玩家控制多個角色或單位的遊戲,其目的是在某種征服或衝突中佔上風。通常但並非總是如此
敘述和圖形反映了軍事衝突,其中單位可能是騎士,坦克或戰艦。策略遊戲的主要挑戰是制定並執行涉及多個單位的複雜計劃。通常,此挑戰比諸如Chess之類的經典棋盤遊戲中的計劃挑戰要困難得多,主要是因爲必須隨時移動多個單元,並且有效的分支因子通常很大。規劃期可能會非常長,遊戲開始時採取的行動會影響整體策略。此外,要預測一個或多個自身具有多個單位的對手的行動也存在挑戰。實時策略遊戲(RTS)是一種策略遊戲,它不會分階段進行,但可以在任何時間點採取行動。 RTS遊戲將時間優先級的挑戰添加到了玩策略遊戲已經很艱鉅的挑戰中。
《星際爭霸》(暴雪娛樂公司,1998–2017)系列無疑是實時戰略(RTS)類別中研究最多的遊戲。 Brood War API(BWAPI)1使軟件可以在遊戲運行時與StarCraft通信,例如提取狀態特徵並執行操作。 BWAPI已在遊戲AI研究中得到廣泛使用,但是目前,只有少數幾個例子應用了深度學習。 TorchCraft是建立在BWAPI之上的庫,該庫將科學計算框架Torch與StarCraft連接起來,從而可以對該遊戲進行機器學習研究[145]。此外,DeepMind和Blizzard(StarCraft的開發者)開發了一種機器學習API,以支持StarCraft II中的研究,其功能包括爲卷積網絡設計的簡化視覺效果[157]。該API包含多個迷你挑戰,同時還支持完整的1v1遊戲設置。 μRTS[104]和ELF [151]是兩個簡約的RTS遊戲引擎,實現了RTS遊戲中存在的某些功能。

F.團體運動會
流行的體育遊戲通常基於基於團隊的運動,例如足球,籃球和足球。這些遊戲旨在通過逼真的動畫和3D圖形來儘可能逼真。在一年一度的機器人世界盃足球賽(RoboCup)中,幾種類似於足球的環境已被廣泛用作研究平臺,包括物理機器人和2D / 3D模擬[3]。 Keepaway Soccer是一種簡單的類似於足球的環境,其中一個團隊的探員試圖保持對球的控制,而另一團隊則試圖獲得對球的控制[138]。類似的多代理環境
1 http://bwapi.github.io/
5
 
     ALE GVG­AI VizDoom TORCS項目Malmo星際爭霸:巢之戰(Breakout)(Zelda)(我的世界)
學習方法是RoboCup 2D半場進攻(HFO),由2-3名球員組成的團隊在足球場的一半上扮演進攻或防守的角色[50]。
G.文字冒險遊戲
經典的文字冒險遊戲是一種互動小說形式,在遊戲中,玩家會獲得文字而非文字的描述和說明,並通過基於文本的命令與故事情節互動[144]。這些命令通常用於查詢系統的狀態,與故事中的角色進行交互,收集和使用物品或在虛構的世界中導航。
這些遊戲通常實現三種基於文本的界面之一:基於解析器,基於選擇和基於超鏈接[54]。基於選擇的接口和基於超鏈接的接口在給定狀態下以列表,上下文或狀態描述中的鏈接的形式向播放器提供可能的操作。另一方面,基於解析器的界面可以接受任何輸入,並且玩家必須學習遊戲可以理解的單詞。這對於計算機來說很有趣,因爲它更類似於自然語言,在自然語言中,您必須基於對語言和給定狀態的瞭解,知道應該採取什麼行動。
與街機遊戲等其他遊戲類型不同,文字冒險遊戲還沒有人人都能比較的標準遊戲基準。這使得很多結果難以直接比較。許多研究都針對可在Infocom的Z-Machine遊戲引擎上運行的遊戲,該引擎可玩很多早期的經典遊戲。最近,Microsoft引入了TextWorld環境,以幫助創建標準化的文本冒險環境[25]。
H.OpenAI體育館和宇宙
OpenAI Gym是一個用於比較鋼筋強度的大型平臺,
具有單一界面的一套高級學習算法,包括一套ALE,GVG-AI,MuJoCo,Malmo,ViZDoom等不同環境[17]。 OpenAI Universe是OpenAI Gym的擴展,目前可與上千種Flash遊戲交互,並旨在在將來增加許多現代視頻遊戲2。
IV。深度遊戲學習方法
本節概述了用於玩視頻遊戲的深度學習技術,按遊戲類型劃分。表II列出了每種遊戲類型和亮點的深度學習方法,它們輸入了它們依賴的功能,網絡體系結構和訓練方法。深度RL中使用的典型神經網絡架構如圖3所示。
A.街機遊戲
街機學習環境(ALE)包含50多種Atari遊戲,並且已經成爲直接從原始像素學習控制策略的深度強化學習算法的主要測試平臺。本節回顧了ALE中已演示的主要改進。表IV-A顯示了這些進展的概述。
2 https://universe.openai.com/
深度Q網絡(DQN)是在ALE中顯示人類專家級控制的第一個學習算法[97]。 DQN已在7款Atari 2600遊戲中進行了測試,並且性能優於以前的方法,例如具有特徵構建功能的SARSA [7]和神經進化[49],以及三款遊戲的人類專家。 DQN基於Q學習,其中神經網絡模型學習近似Qπ(s,a),該Qπ(s,a)估計在遵循行爲策略μ的情況下在狀態s下采取行動a的預期回報。一個簡單的網絡體系結構由兩個卷積層和一個單獨的全連接層組成,用作函數逼近器。
DQN中的關鍵機制是體驗重播[89],其中{st,at,rt + 1,st + 1}形式的體驗存儲在重播內存中,並在網絡更新時分批隨機採樣。這使算法能夠重用並從過去和不相關的經驗中學習,從而減少了更新的差異。 DQN後來通過一個單獨的目標Q網絡進行了擴展,該參數在各個更新之間保持固定,並在49個經過測試的遊戲中有29個顯示出超過人類專家的分數[98]。
深度遞歸Q學習(DRQN)在輸出之前在遞歸層擴展了DQN架構,並且對於具有部分可觀察狀態的遊戲非常有效[51]。
在使用Gorila的49款遊戲中,有41款遊戲的DQN分佈式版本的性能優於非分佈式版本

每個玩家,並在訓練過程中互相對抗[146]。經過多人遊戲模式訓練的特工在對抗新對手時表現出色,而經過固定算法訓練的特工無法將其策略推廣到新對手。
DQN,SARSA和Actor-Critic方法的多線程異步變體可以在單臺機器上利用多個CPU線程,從而減少了與並行線程數量大致成線性的訓練[96]。這些變體不依賴於重播內存,因爲網絡會根據並行參與者的不相關經驗進行更新,這也有助於穩定基於策略的方法。異步優勢Actor-Critic(A3C)算法是一種actor-critic方法,該方法使用多個並行代理收集所有異步更新全局actor-critic網絡的體驗。 A3C的性能優於優先決鬥DQN,後者在GPU上進行了8天的培訓,而在CPU上僅進行了一半的培訓時間[96]。
具有經驗重演的行爲者批判方法(ACER)實現了一種有效的信任區域策略方法,該方法強制更新與過去策略的運行平均值之間的偏差不大[160]。 ALE中的ACER的性能與具有優先級體驗回放的Dueling DQN以及沒有體驗回放的A3C相匹配,而數據效率更高。
具有漸進神經網絡的A3C [120]可以有效地將學習從一種遊戲轉移到另一種遊戲。通過爲每個新任務實例化一個網絡來完成培訓,並連接到所有先前學習的網絡。這使新網絡可以訪問已經學習的知識。
優勢行爲者批判(A2C)是A3C的一種同步變體[96],可以分批同步更新參數,並且在僅維護一個神經網絡的情況下具有可比的性能[166]。使用Kronecker要素信任區域(ACKTR)的Actor-Critic通過對參與者和評論者的自然政策梯度更新進行近似來擴展A2C [166]。在Atari中,與A2C相比,ACKTR的更新速度較慢(每個時間步長最多25%),但採樣效率更高(例如,在Atlantis中是10倍)[166]。信任區域策略優化(TRPO)使用替代目標,併爲單調策略的改進提供了理論上的保證,而實際上實現了一種稱爲信任區域的近似方法[128]。這是通過限制網絡更新並限制當前和當前KL之間的KL差異來完成的。
更新的政策。 TRPO在Atari遊戲中具有強大且數據高效的性能,同時它對內存的要求很高,並且存在一些限制。近端策略優化(PPO)是對TRPO的改進,它使用類似的替代目標[129],但通過添加KL散度作爲懲罰,使用了軟約束(最初在[128]中建議)。它使用固定的替代目標代替固定的懲罰係數,該目標在某些指定時間間隔之外對策略更新進行懲罰。 PPO被證明比A2C具有更高的採樣效率,與Atari中的ACER相當,而PPO不依賴於重播內存。在連續控制任務中,PPO還表現出與TRPO相當或更好的性能,同時更簡單,更易於並行化。
IMPALA(重要加權演員學習者體系結構)是一種演員批評方法,其中具有GPU訪問權限的多個學習者彼此之間共享梯度,同時從一組參與者同步更新[30]。此方法可以擴展到大量機器,並且性能優於A3C。此外,IMPALA經過訓練,具有一組參數,可以在ALE中玩所有57場Atari遊戲,人類標準化平均得分爲176.9%(中位數爲59.7%)[30]。參與者在IMPALA設置中收集的經驗可能缺乏學習者的政策,從而導致脫離政策的學習。通過V-trace算法可以減輕這種差異,該算法根據參與者和學習者政策之間的差異來權衡體驗的重要性[30]。
UNREAL(無監督的強化和輔助學習)算法基於A3C,但使用重播內存,可同時從中學習輔助任務和僞獎勵功能[63]。與ALE中的香草A3C相比,UNREAL僅顯示了少量改進,而在其他領域則顯示出較大的改進(請參閱第IV-D節)。
分佈DQN通過將Q(s,a)視爲回報的近似分佈而不是每個動作的單個近似期望,來從強化學習的分佈角度出發[9]。分佈被分爲一組原子,它決定了分佈的粒度。他們的結果表明,分佈越細,結果越好,並且具有51個原子(此變體稱爲C51),其ALE平均得分幾乎與UNREAL相當。

在NoisyNets中,將噪聲添加到網絡參數中,並使用梯度下降來學習每個參數的唯一噪聲水平[35]。相對於ε貪婪探索(代理從策略或從統一隨機分佈中採樣行動)而言,NoisyNets使用該政策的嘈雜版本來確保探索,這被證明可以改善DQN(NoisyNet-DQN)和A3C (NoisyNet-A3C)。
Rainbow組合了多個DQN增強功能:雙DQN,優先重播,決鬥DQN,分佈式DQN和NoisyNets,並且平均得分高於任何單個增強[56]。
進化策略(ES)是黑盒優化算法,它依靠通過隨機噪聲進行參數探索而不是計算梯度,並且當使用更多CPU時,可以在訓練時間上以線性加速的方式高度並行化[121]。使用720個CPU的時間爲一小時,此後ES在51款遊戲中有23款在性能上優於A3C(運行了4天),而ES則由於其高度並行化而使用了3至10倍的數據。 ES僅運行了一天,因此目前尚不清楚它們的全部潛力。新穎性搜索是一種流行的算法,它可以通過指導新穎性行爲來克服具有欺騙性和/或稀疏獎勵的環境[84]。 ES已被擴展爲使用新穎性搜索(NS-ES),通過在RAM狀態下定義新穎的行爲,它在一些具有挑戰性的Atari遊戲中勝過ES [24]。兼具新穎性和獎勵信號的稱爲NSR-ES的質量多樣性變體可以達到更高的性能[24]。在一些遊戲中,NS-ES和NSR-ES的效果較差,可能是獎勵功能不稀疏或具有欺騙性。
一種具有高斯噪聲突變算子的簡單遺傳算法可改進深度神經網絡(Deep GA)的參數,並且可以在多個Atari遊戲中獲得令人驚訝的好成績[139]。在使用多達數千個CPU的13種Atari遊戲中,Deep GA顯示出與DQN,A3C和ES相當的結果。此外,在計算量大致相同的情況下,隨機搜索在13場比賽中有4場表現優於DQN,在5場比賽中表現優於A3C [139]。儘管人們一直擔心進化方法不像基於梯度下降的方法那樣可擴展,但一種可能性是將特徵構造與策略網絡分開。然後,進化算法可以創建仍然發揮良好作用的極小的網絡[26]。
一些監督學習方法已應用於街機遊戲。在郭等。 [42]使用蒙特卡洛樹搜索(Macro-Carlo Tree Search),離線部署慢速計劃代理,以通過多項式分類生成用於訓練CNN的數據。這種方法被稱爲UCTtoClassification,表現優於DQN。策略提煉[119]或角色模仿[108]方法可用於訓練一個網絡來模仿一組策略(例如,針對不同的遊戲)。這些方法可以減小網絡的大小,有時還可以提高性能。可以使用DQN代理使用編碼,轉換,解碼網絡體系結構從數據集中學習幀預測模型。然後,該模型可用於在再培訓階段改進勘探[103]。自我監督的任務,例如報酬預測,狀態後繼對的驗證以及將狀態和後繼狀態映射到行動可以定義用於政策網絡預訓練的輔助損失,最終可以改善學習[132]。培訓目標向代理提供反饋,而績效目標指定目標行爲。通常,單個獎勵功能會同時扮演這兩個角色,但是對於某些遊戲,性能目標無法充分指導訓練。混合獎勵架構(HRA)將獎勵功能分爲n個不同的獎勵功能,其中每個功能都被分配了一個單獨的學習代理[156]。 HRA通過在網絡中具有n個輸出流以及n個Q值來實現此目的,這些Q值在選擇操作時進行組合。 HRA能夠以更少的成本獲得最大可能的分數
超過3,000集。
B.蒙特祖瑪的復仇
反饋稀疏的環境仍然是強化學習的挑戰。蒙特祖瑪的復仇遊戲就是ALE中這種環境的一個很好的例子,因此已經進行了更詳細的研究,並用於基於內在動機和好奇心的基準學習方法。應用內在動機的主要思想是基於某種自我獎勵系統來改善對環境的探索,這最終將幫助主體獲得外部獎勵。 DQN在此遊戲中未獲得任何獎勵(得分爲0),而Gorila的平均得分僅爲4.2。一個人類專家可以達到4,367分,很顯然,到目前爲止介紹的方法無法應對如此稀疏的獎勵環境。一些有希望的方法旨在克服這些挑戰。
分層DQN(h-DQN)[77]在兩個時間尺度上運行,其中一個控制器的Q值函數Q1(s,a; g)學習滿足滿足上級Q選擇的目標的操作的策略值函數Q2(s,g),元控制器,它學習有關內在目標(即選擇哪些目標)的策略。這種方法在蒙特祖瑪的復仇中平均得分約爲400,其中目標被定義爲特工達到(碰撞)某種類型的對象。因此,此方法必須依賴某種對象檢測機制。
當觀察到意外的像素配置時,僞計數已被用於以探索性獎金的形式提供內在動機,並且可以從CTS密度模型[8]或神經密度模型[107]中得出。密度模型爲圖像分配概率,與在同一幅圖像上再訓練一次相比,模型對觀測圖像的僞計數是模型的預測變化。通過將DQN與CTS密度模型(DQN-CTS)或PixelCNN密度模型(DQN-PixelCNN)相結合,在蒙特祖瑪的Revenge和其他艱苦的Atari遊戲中取得了令人印象深刻的結果[8]。有趣的是,當CTS密度模型與A3C(A3C-CTS)結合使用時,結果效果不佳[8]。
Ape-X DQN是類似於Gorila的分佈式DQN架構,因爲演員與學習者是分開的。 Ape-X DQN使用376個內核和1個GPU(在50K FPS上運行),可以在57個Atari遊戲中獲得最先進的結果[61]。從演示中進行的深度Q學習(DQfD)從體驗重播緩衝區中抽取樣本,該緩衝區由人類專家的演示數據初始化,並優於11種稀疏獎勵的Atari遊戲中的先前方法[57]。 Ape-X DQfD結合了Ape-X的分佈式體系結構和DQfD的使用專家數據的學習算法,並被證明優於ALE中的所有先前方法,並優於Montezuma的Revenge [112]中的1級。
爲了提高性能,Kaplan等。等通過文字說明增強了代理商培訓。一種基於指令的強化學習方法,該方法同時使用CNN進行視覺輸入,同時使用RNN進行基於文本的教學,輸入的管理得分爲3500分。指令與房間中的位置相關聯,代理商到達這些位置時會得到獎勵[71],這說明了人類和學習算法之間的卓有成效的合作。在蒙特祖瑪的《復仇》中進行的實驗也表明,該網絡學會了將其推廣到與以前的指令相似的看不見的指令。類似的工作演示了代理如何在學習了教師的語言之後,在稱爲XWORLD的2D迷宮狀環境中執行基於文本的命令,例如步行和撿起對象[172]。 基於RNN的語言模塊連接到基於CNN的感知模塊。 然後,將這兩個模塊連接到一個動作選擇模塊和一個識別模塊,該模塊在問答過程中學習教師的語言。

C.賽車遊戲
在Chen等人的文章中,針對基於視覺的自動駕駛通常有兩種範例。 [21]; (1)學會直接將圖像映射到動作(行爲反射)的端到端系統,以及(2)解析傳感器數據以做出明智決策(介導的感知)的系統。介於這些範式之間的一種方法是直接感知,其中CNN學會從圖像映射到有意義的負擔能力指示符,例如汽車角度和到車道標記的距離,簡單的控制器就可以做出決策
[21]。在TORCS中記錄了12個小時的人類駕駛情況,對直接感知進行了訓練,並且訓練後的系統能夠在非常不同的環境中駕駛。令人驚訝的是,該網絡還能夠推廣到真實圖像。
端到端強化學習算法(例如DQN)不能直接應用於連續環境(例如賽車遊戲),因爲動作空間必須是離散的並且具有相對較低的維度。取而代之的是,諸如參與者行爲準則[27]和確定性策略梯度(DPG)[134]之類的策略梯度方法可以在高維連續行動空間中學習策略。深度DPG(DDPG)是一種策略梯度方法,可同時實現體驗重播和單獨的目標網絡,並且用於從圖像中訓練TORCS中的CNN端到端[88]。
前面提到的A3C方法也已應用於僅使用像素作爲輸入的賽車遊戲TORCS [96]。在這些實驗中,獎勵的形成取決於代理人在賽道上的速度,經過12小時的訓練,A3C在有和沒有對手機器人的賽道上,分別達到了人類測試人員的大約75%和90%的得分。
雖然大多數從視頻遊戲中的高維輸入訓練深度網絡的方法都是基於梯度下降的,但值得注意的例外是Koutńk等人的方法。 [76],其中發展了傅立葉型係數,該係數編碼了具有一百萬以上權重的遞歸網絡。在這裏,evolution能夠找到僅依賴於高維視覺輸入的TORCS高性能控制器。
D.第一人稱射擊遊戲
Kempka等。 [73]證明了具有最大池和使用DQN訓練的完全連接層的CNN在基本情況下可以實現類似人的行爲。在Visual Doom AI競賽20163中,許多參與者提交了經過預訓練的基於神經網絡的特工,這些特工在多人死亡競賽中競爭。既進行了有限的競賽(其中機器人在已知級別進行競爭),又進行了全面的競賽,其中包括了在看不見的級別中進行競爭的機器人。有限賽道的獲勝者使用了經過獎勵塑造和課程學習的A3C訓練的CNN [167]。獎勵塑形解決了獎勵稀疏和延誤的問題,爲撿起物品提供了人爲的積極獎勵,爲使用彈藥和失去健康提供了消極獎勵。課程學習試圖通過在一組逐漸困難的環境中進行訓練來加快學習速度[11]。受限賽道上的第二名參賽者使用了經過改進的DRQN網絡體系結構以及附加的全連接層流,以學習有監督的輔助任務,例如敵人偵察,目的是加快對卷積層的訓練[79]。 。使用同時定位和映射(SLAM)從像素和深度緩衝區進行位置推斷和對象映射也可以改善Doom中的DQN [14]。
完整的比賽競賽獲勝者採用了直接未來預測(DFP)方法,該方法被證明優於DQN和A3C [28]。 DFP廣告管理系統中使用的體系結構包含三個流:一個流用於屏幕像素,一個流用於描述代理的當前狀態的低維測量,還有一個用於描述業務代表的目標的指標,它是優先衡量指標的線性組合。 DFP會在內存中收集經驗,並使用有監督的學習技術進行培訓,以根據當前狀態,目標和選定的操作來預測未來的測量結果。在訓練期間,根據以下情況選擇能夠產生最佳預測結果的動作:
當前的目標。可以針對各種目標訓練該方法,並在測試時將其推廣到看不見的目標。
在3D環境中導航是FPS遊戲所需的重要技能之一,並且已經進行了廣泛的研究。 CNN + LSTM網絡經過A3C擴展訓練,並具有預測像素深度和環路閉合的附加輸出,顯示出顯着改進[95]。
基於A3C的UNREAL算法實現了
輔助任務,它訓練網絡以預測從一系列連續觀察中得出的即時後續未來收益。 UNREAL在OpenArena上的水果採集和勘探任務上進行了測試,並獲得了87%的人類標準化平均得分,而A3C僅達到53%[63]。
將知識轉移到新環境中的能力可以減少學習時間,並且在某些情況下對於某些具有挑戰性的任務至關重要。通過在類似環境中用更簡單的任務對網絡進行預訓練或在訓練過程中使用隨機紋理可以實現轉移學習[20]。 Distill and Transfer Learning(Distral)方法同時訓練了幾個工人策略(每個任務一個),並共享一個蒸餾策略[149]。對工作人員策略進行了規範化處理,以使其緊貼共享策略,而共享策略將成爲工作人員策略的重心。 Distral已應用於DeepMind Lab。
內在好奇心模塊(ICM)由多個神經網絡組成,它根據代理人無法預測採取行動的結果來計算每個步驟的內在獎勵。它被證明學會了僅依靠內在的獎勵就可以在複雜的《毀滅戰士》和《超級馬里奧》中導航[110]。
E.開放世界遊戲
分層深度強化學習網絡(H-DRLN)架構實現了終身學習框架,該框架被證明能夠在Minecraft中的簡單任務(如導航,項目收集和放置任務)之間傳遞知識[150]。 H-DRLN使用各種策略提煉[119]來將學習到的知識保留和封裝到單個網絡中。
神經圖靈機(NTM)是完全可區分的神經網絡,再加上外部存儲資源,可以學習解決簡單的算法問題,例如複製和排序[40]。在NTM的啓發下,基於記憶的兩種變體稱爲循環記憶Q網絡(RMQN)和反饋循環記憶Q網絡(FR-MQN)能夠解決需要記憶和主動感知的複雜導航任務[102]。
師生課程學習(TSCL)框架結合了一位老師,該老師對任務進行了優先排序,其中學生的表現是增加(學習)或減少(忘記)[92]。 TSCL啓用了策略梯度學習方法來解決迷宮問題,而這些迷宮問題在子任務的統一採樣下是不可能的。
F.實時策略遊戲
前面的部分描述了學會端到端玩遊戲的方法,即訓練了神經網絡將狀態直接映射到動作。但是,實時策略(RTS)遊戲提供了更爲複雜的環境,在這種環境中,玩家必須同時在部分可觀察的地圖上實時控制多個特工。另外,RTS遊戲沒有遊戲內計分,因此獎勵由誰贏得遊戲來確定。由於這些原因,在可預見的未來,學會端到端玩RTS遊戲可能是行不通的,到目前爲止,已經研究了子問題。
對於簡單的RTS平臺μRTS,在生成的數據集上使用監督學習將CNN訓練爲狀態評估器,並與Monte Carlo Tree Search [136],[4]結合使用。該方法的性能明顯優於以前的評估方法。
《星際爭霸》一直是人工智能研究的流行遊戲平臺,但到目前爲止僅提供了幾種深度學習方法。 《星際爭霸》的深度學習方法側重於微管理(單元控制)或構建順序計劃,而忽略了遊戲的其他方面。在戰鬥場景中可以避免《星際爭霸》中獎勵延遲的問題。在這裏,獎勵的形式可以是所造成的損害與所遭受的損害之間的差額[154],[33],[111],[32]。狀態和動作通常是相對於單位進行本地描述的,單位是從遊戲引擎中提取的。如果對代理商進行單獨培訓,則很難知道哪個代理商對全球獎勵做出了貢獻[19],這個問題稱爲多代理商信用分配問題。一種方法是訓練通用網絡,該網絡分別控制每個單元,並根據每個情節中產生的獎勵使用零級優化在策略空間中進行搜索[154]。還有一個用於描述業務代表的目標的指標,它是優先衡量指標的線性組合。 DFP會在內存中收集經驗,並使用有監督的學習技術進行培訓,以根據當前狀態,目標和選定的操作來預測未來的測量結果。在訓練期間,根據以下情況選擇能夠產生最佳預測結果的動作:
當前的目標。可以針對各種目標訓練該方法,並在測試時將其推廣到看不見的目標。
在3D環境中導航是FPS遊戲所需的重要技能之一,並且已經進行了廣泛的研究。 CNN + LSTM網絡經過A3C擴展訓練,並具有預測像素深度和環路閉合的附加輸出,顯示出顯着改進[95]。
基於A3C的UNREAL算法實現了
輔助任務,它訓練網絡以預測從一系列連續觀察中得出的即時後續未來收益。 UNREAL在OpenArena上的水果採集和勘探任務上進行了測試,並獲得了87%的人類標準化平均得分,而A3C僅達到53%[63]。
將知識轉移到新環境中的能力可以減少學習時間,並且在某些情況下對於某些具有挑戰性的任務至關重要。通過在類似環境中用更簡單的任務對網絡進行預訓練或在訓練過程中使用隨機紋理可以實現轉移學習[20]。 Distill and Transfer Learning(Distral)方法同時訓練了幾個工人策略(每個任務一個),並共享一個蒸餾策略[149]。對工作人員策略進行了規範化處理,以使其緊貼共享策略,而共享策略將成爲工作人員策略的重心。 Distral已應用於DeepMind Lab。
內在好奇心模塊(ICM)由多個神經網絡組成,它根據代理人無法預測採取行動的結果來計算每個步驟的內在獎勵。它被證明學會了僅依靠內在的獎勵就可以在複雜的《毀滅戰士》和《超級馬里奧》中導航[110]。
E.開放世界遊戲
分層深度強化學習網絡(H-DRLN)架構實現了終身學習框架,該框架被證明能夠在Minecraft中的簡單任務(如導航,項目收集和放置任務)之間傳遞知識[150]。 H-DRLN使用各種策略提煉[119]來將學習到的知識保留和封裝到單個網絡中。
神經圖靈機(NTM)是完全可區分的神經網絡,再加上外部存儲資源,可以學習解決簡單的算法問題,例如複製和排序[40]。在NTM的啓發下,基於記憶的兩種變體稱爲循環記憶Q網絡(RMQN)和反饋循環記憶Q網絡(FR-MQN)能夠解決需要記憶和主動感知的複雜導航任務[102]。
師生課程學習(TSCL)框架結合了一位老師,該老師對任務進行了優先排序,其中學生的表現是增加(學習)或減少(忘記)[92]。 TSCL啓用了策略梯度學習方法來解決迷宮問題,而這些迷宮問題在子任務的統一採樣下是不可能的。
F.實時策略遊戲
前面的部分描述了學會端到端玩遊戲的方法,即訓練了神經網絡將狀態直接映射到動作。但是,實時策略(RTS)遊戲提供了更爲複雜的環境,在這種環境中,玩家必須同時在部分可觀察的地圖上實時控制多個特工。另外,RTS遊戲沒有遊戲內計分,因此獎勵由誰贏得遊戲來確定。由於這些原因,在可預見的未來,學會端到端玩RTS遊戲可能是行不通的,到目前爲止,已經研究了子問題。
對於簡單的RTS平臺μRTS,在生成的數據集上使用監督學習將CNN訓練爲狀態評估器,並與Monte Carlo Tree Search [136],[4]結合使用。該方法的性能明顯優於以前的評估方法。
《星際爭霸》一直是人工智能研究的流行遊戲平臺,但到目前爲止僅提供了幾種深度學習方法。 《星際爭霸》的深度學習方法側重於微管理(單元控制)或構建順序計劃,而忽略了遊戲的其他方面。在戰鬥場景中可以避免《星際爭霸》中獎勵延遲的問題。在這裏,獎勵的形式可以是所造成的損害與所遭受的損害之間的差額[154],[33],[111],[32]。狀態和動作通常是相對於單位進行本地描述的,單位是從遊戲引擎中提取的。如果對代理商進行單獨培訓,則很難知道哪個代理商對全球獎勵做出了貢獻[19],這個問題稱爲多代理商信用分配問題。一種方法是訓練通用網絡,該網絡分別控制每個單元,並根據每個情節中產生的獎勵使用零級優化在策略空間中進行搜索[154]。獨立Q學習(IQL)通過單獨控制單元,同時將其他代理視爲環境的一部分來簡化多代理RL問題[147]。這使得Q學習可以很好地擴展到大量代理。但是,當將IQL與最新技術(如體驗重播)結合使用時,代理傾向於根據過時策略的經驗來優化其策略。通過將指紋應用於體驗並應用重要性加權損失函數可以自然克服陳舊的數據,從而克服了這一問題,這對於某些小型戰鬥場景已顯示出改進[33]。
多主體雙向協調網絡(BiC-Net)實現了基於雙向RNN的矢量化行爲者批評框架,每個主體具有一個維度,並輸出一系列動作[111]。這種網絡體系結構是其他方法所獨有的,因爲它可以處理任意數量的不同類型的單元。
反事實多主體(COMA)策略梯度是一種參與者批評方法,具有集中的評論者和分散的參與者,它們通過評論者網絡計算出的反事實基線來解決多主體信用分配問題[32]。 COMA在分散作戰的情況下,在每邊最多10個單位的小型戰鬥場景中,可以達到最新成果。
深度學習也已應用在星際爭霸中的構建訂單計劃中,它使用基於宏的監督學習方法來模仿人類策略[68]。訓練有素的網絡被集成爲一個模塊,該模塊在現有的bot中使用,可以用其他方式的手工行爲玩完整遊戲。卷積神經網絡擬合Q學習(CNNFQ)是另一種基於宏的方法,這裏使用RL而不是SL,已通過Double DQN進行了星際爭霸II中的建造訂單計劃培訓,並且能夠與中級腳本機器人競爭小地圖[148]。一種基於宏動作的強化學習方法,使用近鄰策略優化構建訂單計劃和高級攻擊計劃的集成化(PPO)的性能優於StarCraft II中內置的bot,級別爲10 [141]。通過充分了解地圖和更快地收集資源,這對於第10級機器人作弊來說尤其令人印象深刻。結果是在80臺機器上的3840個CPU上使用1920個並行actor獲得的,並且僅在一張地圖上進行了一次對決。該系統在與白金級人類玩家的比賽中贏了幾場比賽,但是與鑽石級玩家的所有遊戲都輸了。作者報告說,博學的政策“缺乏策略多樣性,以不斷擊敗人類玩家” [141]。
G.團體運動會
深度確定性策略梯度(DDPG)已應用於RoboCup 2D半場進攻(HFO)[51]。角色網絡使用了兩個輸出流,一個用於選擇離散的動作類型(破折號,轉彎,剷球和腳踢),一個用於每種動作類型的1-2個連續值參數(功率和方向)。當輸出接近其邊界時,Inverting Gradients邊界方法會縮小梯度,如果參數超過邊界,則將其反轉。在2012年的RoboCup比賽中,這種方法的表現優於SARSA和最佳代理。 DDPG還通過將策略更新與第一步Q-Learning更新[53]相結合而應用於HFO,並且在每個團隊中只有一名參與者,勝過了具有專業知識的手工編碼代理。
H.物理遊戲
由於視頻遊戲通常是對現實世界的反映或簡化,因此瞭解有關環境中物理定律的直覺可能會富有成果。使用以對象爲中心的方法(也稱爲注視)的預測性神經網絡在接受隨機交互訓練後學會了運行臺球遊戲[36]。然後,該預測模型可用於計劃遊戲中的動作。
使用虛幻引擎在類似3D遊戲的環境中測試了類似的預測方法,其中對ResNet-34 [55](用於圖像分類的深層殘差網絡)進行了擴展和訓練,以預測堆疊的塊的視覺效果這樣它們通常會掉下來[86]。殘留網絡實現跳過層的快捷連接,這可以改善非常深入的網絡中的學習。
I.文字冒險遊戲
文本冒險遊戲是一種特殊的視頻遊戲類型,其中狀態和動作都僅以文本形式呈現。一種稱爲LSTM-DQN [101]的網絡體系結構專門設計用於玩這些遊戲,並使用LSTM網絡實現,該網絡將文本從世界狀態轉換爲矢量表示,該矢量表示估計所有可能的狀態-動作對的Q值。在兩種不同的文字冒險遊戲中,LSTM-DQN能夠平均完成96%至100%的任務。
爲了改善這些結果,研究人員已轉向學習語言模型和單詞嵌入以增強神經網絡。結合了一種方法
具有明確語言理解的強化學習是深度強化相關網絡(DRRN)[54]。這種方法有兩個學習單詞嵌入的網絡。一個嵌入狀態描述,另一個嵌入動作描述。使用諸如向量的內積或雙線性運算之類的相互作用函數來計算兩個嵌入向量之間的相關性。然後將相關性用作Q值,並通過深度Q學習對整個過程進行端到端培訓。這種方法允許網絡將訓練期間未看到的短語歸納爲一個大型文本遊戲的改進。該方法已在文字遊戲《拯救約翰》和《機器的死亡》中進行了測試,這兩種遊戲都是基於選擇的遊戲。
使語言建模更進一步,Fulda等。等明確建模的語言能力可幫助選擇行動[37]。首先通過無監督學習從維基百科語料庫中學習單詞嵌入[94],然後使用該嵌入來計算類比,例如將歌曲作爲自行車與x一起唱歌,然後可以在嵌入空間中計算x [94]。 。作者構建了一個動詞,名詞對和另一個對象操縱對的字典。使用所學的能力,該模型可以爲狀態描述建議一小組動作。通過Q-Learning學習了策略,並在50個Z-Machine遊戲上進行了測試。戈洛文特工專門研究語言模型[75],這些語言模型是從幻想類型的書籍中預訓練的。使用單詞嵌入,代理可以用已知單詞替換同義詞。戈洛文由五個命令生成器構成:常規,運動,戰鬥,戰鬥,收集和庫存。這些是通過分析狀態描述而生成的,使用語言模型爲每個命令從許多功能中計算和採樣。戈洛文(Golovin)不使用強化學習,其得分與可負擔性方法相當。
最近,Zahavy等。等提出了另一種DQN方法[173]。此方法使用一種稱爲“行動消除網絡”(AEN)的注意力機制。在基於解析器的遊戲中,動作空間非常大。 AEN在玩遊戲時會學習預測哪些動作對給定的狀態描述無效。然後,使用AEN消除給定狀態下的大多數可用操作,然後使用Q網絡評估剩餘的操作。整個過程經過端到端培訓,並通過手動約束的操作空間實現了與DQN相似的性能。儘管文本冒險遊戲取得了進步,但當前的技術仍遠不能與人類的表現相提並論。
在文字冒險遊戲之外,自然語言處理也已用於其他基於文字的遊戲。爲了促進通信,使用了深度分佈式循環Q網絡(DDRQN)架構來訓練多個代理來學習通信協議,以解決多代理之謎[34]。 DDRQN中的一種新穎修改是,代理使用共享網絡權重,該權重取決於其唯一ID,這使得能夠在保持代理之間的多樣性的同時加快學習速度。
V.遊戲深度學習的歷史概述
上一節根據遊戲類型討論了遊戲中的深度學習方法。該部分看起來這些方法如何相互影響方面的發展,對深度學習方法進行了歷史回顧,在上一節中進行了回顧。這些方法中有許多是從以前的方法中汲取靈感或直接建立在以前的方法上的,而有些方法則適用於不同的遊戲類型,而另一些方法則是針對特定類型的遊戲量身定製的。
圖4顯示了一個影響圖,其中包含已審查的方法及其與早期方法的關係(當前部分可以看成是該圖的長標題)。圖中的每種方法都帶有顏色,以顯示遊戲基準。 DQN [97]作爲一種算法很有用,該算法使用基於梯度的深度學習進行基於像素的視頻遊戲,並且最初應用於Atari基準測試。請注意,存在較早的方法,但成功率較低,例如[109]和成功的無梯度方法[115]。 Double DQN [155]和Dueling DQN [161]是使用多個網絡來改進估計的早期擴展。 DRQN [51]使用遞歸神經網絡作爲Q網絡。優先DQN [123]是另一個早期擴展,它增加了改進的體驗重播採樣。自舉式DQN [106]是Double DQN的基礎,它採用了不同的改進採樣策略。用於Atari的其他DQN增強功能包括:C51算法[9],該算法基於DQN但更改了Q函數;噪聲網使網絡隨機,以協助探索[35]; DQfD也從例子中學習[57];和Rainbow,將許多這些最先進的技術結合在一起[56]。
Gorila是第一個基於DQN的異步方法[100],隨後是A3C [96],該方法將多個異步代理用於參與者批評方法。 2016年底,UNREAL [63]進一步擴展了該方法,該方法結合了輔助學習完成的工作以處理稀疏的反饋環境。從那時起,A3C有了很多其他擴展[166],[160],[120],[35]。 IMPALA通過專注於可以玩所有Atari遊戲[30]的受過訓練的經紀人來進一步發展。在2018年,通過Ape-X [61],[112]繼續向大規模分佈式學習邁進。進化技術也正在使視頻遊戲復興。第一Salimans等。等結果表明,進化策略可以與深度RL競爭[121]。然後,Uber AI又發表了兩篇論文:一篇表明無導數進化算法可以與深度RL競爭[139],以及對ES的擴展[24]。它們得益於易於並行化,並且可能在勘探中具有一定優勢。
引入DQN時,在Atari上使用的另一種方法是信任區域策略優化[77]。這將更新從環境更新的替代目標。 2017年下半年,引入了近端策略優化作爲一種​​更健壯,更簡單的代理優化方案,該方案也借鑑了A3C的創新[129]。一些擴展專門針對Montezuma的復仇,這是ALE基準內的遊戲,但是由於稀疏的獎勵和隱藏的信息而特別困難。在Montezuma上表現最佳的算法是通過使用固有動機[8]和分層學習[77]擴展DQN來實現的。 Packman女士還從Atari選拔出來,在那裏,獎勵功能是單獨學習的,從而使
代理對新環境更健壯[156]。
《毀滅戰士》是2016年的新基準。該遊戲的大部分工作都在擴展爲Atari設計的方法,以處理更豐富的數據。 A3C +課程學習[167]建議在A3C中使用課程學習。 DRQN +輔助學習[79]通過在培訓期間增加額外的獎勵來擴展DRQN。 DQN + SLAM [14]結合了使用DQN映射未知環境的技術。
DFP [28]是唯一沒有擴展Atari技術的方法。與Atari的UCT分類[42],檯球的以對象爲中心的預測[36]和Racing的直接感知[21]一樣,DFP使用監督學習來學習遊戲。所有這些,除了《 UCT分類》外,都學會了直接預測遊戲的某些未來狀態並根據此信息進行預測。這些來自不同年份的作品都沒有相互參照。除了Direct Perception之外,賽車上唯一獨特的作品是Deep DPG [88],它將DQN擴展爲連續控制。該技術已擴展到RoboCup Soccer [52] [53]。
《星際爭霸》微管理(單元控制)的工作基於2016年底開始的Q學習。IQL[33]通過將所有其他代理視爲環境的一部分來擴展DQN優先DQN。 COMA [32]通過計算反事實報酬(每個特工增加的邊際貢獻)擴展了IQL。 biCNet [111]和零階優化[154]是基於強化學習的,但並非源自DQN。另一種流行的方法是分層學習。在2017年,它使用重播數據進行了嘗試[68],並在2018年通過將其與兩種不同的RL方法一起使用而獲得了最先進的結果[141],[148]。
2016年發表的一些作品將DQN擴展到Minecraft [150]。大約在同一時間,開發了使DQN上下文感知和模塊化以處理大型狀態空間的技術[102]。最近,課程學習也已應用於Minecraft [92]。
DQN於2015年應用於文字冒險遊戲[101]。不久之後,它被修改爲具有特定於語言的體系結構,並使用狀態-動作對相關性作爲Q值[54]。這些遊戲的大部分工作都集中在顯式語言建模上。戈洛文特工和基於負擔的行動選擇都使用神經網絡來學習語言模型,這些語言模型爲特工提供了扮演的行動[37],[75]。最近,在2018年,DQN再次與“行動消除網絡”配對使用[173]。
事實證明,結合以前算法的擴展是應用於視頻遊戲的深度學習的一個有希望的方向,而Atari是RL最受歡迎的基準。從表II中可以明顯看出,另一個明顯的趨勢是對並行化的關注:將工作分配到多個CPU和GPU之間。並行化最常見於行動者批評方法,例如A2C和A3C,以及進化論方法,例如Deep GA [139]和Evolution Strategies [121],[24]。分層強化學習,內在動機和遷移學習是有望掌握視頻遊戲中當前尚未解決的問題的新方向。

VI。公開挑戰
雖然深度學習已在視頻遊戲中取得了顯著成果,但仍存在許多重要的開放挑戰,我們將在這裏進行回顧。確實,回顧未來一兩年的研究現狀,我們很可能會將當前的研究視爲廣泛而重要的研究領域中的早期步驟。本節分爲四大類(代理模型屬性,遊戲行業,遊戲學習模型和計算資源),它們具有不同的遊戲玩法挑戰,仍然對深度學習技術開放。我們提到了一些應對某些挑戰的潛在方法,而目前尚不清楚針對其他挑戰的最佳方法。
A.代理模型屬性
1)普通電子遊戲
能夠解決一個問題並不能使您變得聰明。沒有人會說深藍色或AlphaGo
[133]具有一般的智力,因爲他們甚至不能玩跳棋(未經重新訓練),更不用說煮咖啡或繫鞋帶了。要學習一般的智能行爲,您不僅需要訓練單個任務,還需要訓練許多不同的任務[83]。電子遊戲被認爲是學習一般智力的理想環境,部分原因是因爲有太多共享共同接口和獎勵慣例的電子遊戲[124]。但是,視頻遊戲深度學習的絕大多數工作都集中於學習玩單個遊戲,甚至在單個遊戲中執行單個任務。
雖然基於RL的深入方法可以學習玩各種不同的Atari遊戲,但是開發可學習玩任何類型遊戲(例如Atari遊戲,DOOM和StarCraft)的算法仍然是一項重大挑戰。當前的方法仍然需要大量的努力來設計網絡體系結構併爲特定類型的遊戲獎勵功能。
在玩多個遊戲的問題上的進步包括漸進式神經網絡[120],它允許新遊戲(不會忘記以前學習的功能),並通過橫向連接利用以前學習的功能更快地解決問題。但是,它們爲每個任務都需要一個單獨的網絡。彈性重量合併[74]可以順序學習多個Atari遊戲,並通過保護權重不被修改而避免災難性的遺忘,而這對於以前學習的遊戲很重要。在PathNet中,使用進化算法來選擇將神經網絡的哪些部分用於學習新任務,從而證明ALE遊戲具有一些轉移學習的性能[31]。
將來,即使這些遊戲非常不同,也要擴展這些方法以學習玩多個遊戲,這一點很重要-大多數當前的方法側重於ALE框架中的不同(已知)遊戲。這種研究的合適途徑是GVGAI競賽的新學習軌跡[78],[116]。與ALE不同,GVGAI有可能無限的遊戲。 GVGAI的最新工作表明,無模型的深度RL不僅適合個人遊戲,甚至適合個人水平。通過在培訓過程中不斷提高新水平來應對這一問題[69]。
多元遊戲問題的重大進步可能來自外部深度學習。特別是,最近的纏結圖表示法(一種遺傳編程形式)已在這項任務中顯示出希望[72]。最近的IMPALA算法試圖通過大規模擴展解決多遊戲學習問題,並取得了一些有希望的結果[30]。
2)克服稀疏,延遲或欺騙性的獎勵
以稀疏獎勵爲特徵的蒙特祖瑪的復仇之類的遊戲,仍然對大多數Deep RL方法提出了挑戰。儘管將DQN與內在動機[8]或專家演示[57],[112]相結合的最新進展可以提供幫助,但是稀疏獎勵的遊戲仍然是當前深度RL方法的挑戰。關於內在動機的強化學習[22],[125]和分層強化學習的研究已有很長的歷史,在這裏可能有用[5],[163]。基於Minecraft的Project Malmo環境提供了一個極好的場所,可用於創建具有稀疏獎勵的任務,而代理商需要設定自己的目標。無導數和無梯度的方法,例如進化策略和遺傳算法,通過局部採樣來探索參數空間,並且對於這些遊戲是有前途的,尤其是與[24],[139]中的新穎性搜索結合使用時。

3)與多個代理一起學習
當前的深入RL方法大多與培訓單個代理有關。存在多個例外,多個代理必須合作[85],[33],[154],[111],[32],但是如何在各種情況下擴展到更多代理仍然是一個公開的挑戰。在許多當前的視頻遊戲中,例如《星際爭霸》或《俠盜獵車手5》,許多特工相互之間以及與玩家互動。爲了將視頻遊戲中的多代理學習擴展到與當前單代理方法相同的性能水平,可能需要能夠同時有效培訓多個代理的新方法。
4)終身適應
雖然可以訓練NPC很好地玩各種遊戲(請參閱第IV節),但是當涉及到應該能夠代理的代理時,當前的機器學習技術仍然很困難
在他們的一生中(即在玩遊戲時)適應。例如,當人類玩家意識到自己總是被伏擊在FPS地圖中的相同位置時,可以迅速改變其行爲。但是,大多數當前的DL技術將需要昂貴的重新培訓才能適應這些情況以及在培訓過程中未遇到的其他不可預見的情況。一個人的實時行爲所提供的數據量遠不及普通深度學習方法所需的數據量。這項挑戰與少拍學習,遷移學習和普通視頻遊戲的廣泛問題有關。解決這一問題對於創建更具可信性和人性化的NPC至關重要。
5)類人遊戲
終身學習只是當前NPC與人類玩家相比缺乏的差異之一。大多數方法都與創建儘可能玩特定遊戲的代理有關,通常只考慮達到的分數。但是,如果期望人類在視頻遊戲中與基於AI的機器人對戰或與其合作,則其他因素也會發揮作用。在這種情況下,與其創建一個能完美玩轉的機器人,不如讓機器人變得可信且有趣,並且具有與人類玩家相似的特質,這一點變得更爲重要。
類人遊戲是一個活躍的研究領域,有兩個針對類人行爲的競賽,分別是2k BotPrize [58],[59]和馬里奧AI冠軍賽的Turing測試賽道[131]。這些比賽中的大多數參賽作品都是基於各種非神經網絡技術,而有些則使用了深度神經網絡的進化訓練來產生類似人的行爲[127],[105]。
6)可調節的性能水平
幾乎所有有關DL的遊戲研究都旨在創建能夠儘可能玩遊戲,甚至“擊敗”遊戲的代理。但是,出於遊戲測試,創建教程和演示遊戲的目的-在所有具有類似於人類的遊戲玩法的地方-能創建具有特定技能水平的特工很重要。如果您的經紀人比任何人類玩家都玩得更好,那麼這不是人類在遊戲中會做什麼的好模型。從最基本的意義上講,這可能需要訓練一個玩得很好的代理,然後找到降低該代理性能的方法。但是,能夠以更細粒度的方式調整性能水平,以便例如分別控制代理的反應速度或長期計劃能力,將更爲有用。甚至更有用的是能夠禁止訓練有素的特工的遊戲風格的某些能力,從而測試例如是否可以在沒有某些動作或戰術的情況下解決給定水平。
實現這一點的一條途徑是程序角色的概念,其中,代理的偏好被編碼爲一組效用權重[60]。但是,尚未使用深度學習來實現此概念,並且仍不清楚如何在這種情況下實現計劃深度控制。

7)處理非常大的決策空間
國際象棋的平均分支因子徘徊在30左右,圍棋的平均分支因子徘徊在300左右,而《星際爭霸》之類的遊戲的分支因子要大幾個數量級。而
15
進化規劃的最新進展已使分支因子較大的遊戲的實時和長期規劃達到[66],[159],[67],如何將Deep RL擴展到如此複雜的水平是一個重要的開放挑戰。在這些遊戲中通過深度學習來學習啓發式方法以增強搜索算法也是一個有前途的方向。
B.遊戲產業
1)在遊戲行業中的採用
由於DL,Facebook,Google / Alphabet,Microsoft和Amazon等各種公司對DL的開發投入了大量資金,因此DL的許多最新進展得到了加速。但是,遊戲行業尚未完全接受這些進步。有時,這被遊戲界以外的評論員感到驚訝,因爲遊戲被視爲大量使用AI技術。但是,在遊戲行業中最常使用的AI的類型更多地集中在具有表現力的非玩家角色(NPC)行爲的手工創作上,而不是機器學習上。在該行業中缺乏神經網絡(及類似方法)採用的一個經常被提及的原因是,這種方法固有地難以控制,這可能導致不良的NPC行爲(例如,NPC可能決定殺死一個與故事有關)。另外,訓練深度網絡模型需要一定水平的專業知識,並且該領域的專家庫仍然有限。應對這些挑戰很重要,以鼓勵遊戲行業的廣泛採用。
另外,儘管大多數DL方法儘可能地只專注於玩遊戲,但這一目標對於遊戲行業而言可能並不是最重要的[171]。在此,玩家在玩耍時所經歷的樂趣或參與度是至關重要的。 DL在遊戲製作過程中用於遊戲的一種用途是進行遊戲測試,其中人工代理測試級別是否可解決或難度是否合適。 DL可能會在遊戲行業中看到其最顯着的用途,而不是玩遊戲,而是基於對現有內容[140],[158]的訓練或對玩家體驗進行建模[169]來生成遊戲內容[130]。
在遊戲行業中,包括Electronic Arts,Ubisoft和Unity在內的數家大型開發和技術公司最近已開始內部研究部門,部分致力於深度學習。這些公司或其客戶的開發部門是否也將接受這些技術還有待觀察。

2)遊戲開發的互動工具
與先前的挑戰相關,目前缺少設計人員用於輕鬆訓練NPC行爲的工具。雖然現在有許多用於訓練深度網絡的開源工具,但是其中大多數都需要相當專業的知識。如果設計人員可以使用一種工具輕鬆地指定所需的NPC行爲(以及不希望的NPC行爲),同時又可以確保對最終訓練結果的一定程度的控制,則可以極大地加快遊戲行業對這些新方法的採用。
從人類的喜好中學習是該領域一個有希望的方向。在神經進化的背景下[115],也對這種方法進行了廣泛的研究。
電子遊戲的開發,允許非專業用戶滋生超級馬里奧的行爲[135]。最近,類似的基於偏好的方法被應用於深度RL方法[23],允許代理商基於人類偏好學習和深度RL的組合來學習Atari遊戲。最近,遊戲公司King發佈了使用模仿學習的結果,以學習對Candy Crush級別進行遊戲測試的策略,爲新的設計工具指明瞭一個有希望的方向[41]。
3)創建新型的視頻遊戲
DL可能會提供一種創建全新遊戲的方法。當今的大多數遊戲設計都源於沒有先進的AI方法可用或硬件過於受限而無法使用它們的時代,這意味着遊戲被設計爲不需要AI。圍繞AI設計新遊戲可以幫助突破這些限制。特別是進化算法和神經進化[115]允許創建全新的遊戲類型,但在這種情況下尚未探索基於梯度下降的DL。神經進化是NERO [137],銀河軍備競賽[48],Petalz [114]和EvoCommander [64]等遊戲的核心機制。基於梯度的優化的一個挑戰是結構通常僅限於具有數學上的平滑度(即可微性),這使得創建有趣且出乎意料的輸出具有挑戰性。
C.遊戲學習模型
關於遊戲深度學習的許多工作都採用了無模型的端到端學習方法,其中訓練了神經網絡,以狀態觀察作爲輸入來產生動作。但是,衆所周知,良好且快速的模型使玩遊戲變得容易得多,因爲可以使用基於樹搜索或進化的計劃方法[171]。因此,該領域面臨的一個重要的開放挑戰是開發一種可以學習遊戲正向模型的方法,從而有可能對遊戲的動力學進行推理。
希望學習遊戲規則的方法可以更好地推廣到不同的遊戲變體,並表現出更強大的學習效果。在這方面有希望的工作包括Guzdial等人的方法。 [44]從遊戲數據中學習了超級馬里奧兄弟的簡單遊戲引擎。 Kansky等。 [70]介紹了模式網絡的思想,該網絡遵循一種面向對象的方法,並經過培訓可以根據當前的屬性和動作來預測未來的對象屬性和獎勵。因此,訓練有素的模式網絡提供了一種概率模型,該模型可用於計劃,並且能夠執行零散發轉移到Breakout的變體,類似於訓練中使用的變體。
D.計算資源
隨着開放世界中更高級的計算模型和大量代理的出現,計算速度成爲一個問題。旨在通過在訓練後壓縮網絡[62]或修剪網絡[47],[43]來使網絡計算效率更高的方法可能會有用。當然,一般而言或神經網絡的處理能力的提高也將很重要。目前,將網絡實時訓練爲16適應遊戲中的變化或適應玩家的遊戲風格,這在設計過程中可能會很有用。

七。 結論
本文回顧了應用於各種類型視頻遊戲中的深度學習方法,包括: 街機,賽車,第一人稱射擊遊戲,開放世界,實時策略,團隊運動,物理和文字冒險遊戲。 大部分經過審查的工作都在端到端的無模型深度強化學習中進行,其中卷積神經網絡通過與遊戲互動來學習直接從原始像素進行遊戲。 最近的工作表明,無導數的進化策略和遺傳算法是競爭性的選擇。 一些經過審查的工作應用監督學習來模仿遊戲日誌中的行爲,而另一些則基於學習環境模型的方法。 對於簡單的遊戲(例如大多數街機遊戲),經過審查的方法可以實現高於人類水平的性能,而在更復雜的遊戲中則存在許多開放性挑戰。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章