中科大教授吳鋒:多智能體的分佈式在線決策 | 騰訊AI Lab學術論壇演講

3月15日,騰訊AI Lab第二屆學術論壇在深圳舉行,聚焦人工智能在醫療、遊戲、多媒體內容、人機交互等四大領域的跨界研究與應用。全球30位頂級AI專家出席,對多項前沿研究成果進行了深入探討與交流。騰訊AI Lab還宣佈了2018三大核心戰略,以及同頂級研究與出版機構自然科研的戰略合作(點擊 這裏 查看詳情)。


騰訊AI Lab希望將論壇打造爲一個具有國際影響力的頂級學術平臺,推動前沿、原創、開放的研究與應用探討與交流,讓企業、行業和學界「共享AI+未來」。


吳鋒

中國科學技術大學計算機科學與技術學院副教授


1.jpg


在下午的“AI+遊戲”論壇上,中國科學技術大學計算機科學與技術學院副教授吳鋒做了主題爲《多智能體分佈式在線決策》的演講。


吳鋒博士的主要研究方向爲多智能體系統、自動規劃理論和智能機器人決策,在 AIJ、IJCAI、 AAAI、NIPS、UAI、AAMAS、ICAPS和ECAI等人工智能學術會議和期刊上發表論文30餘篇。他曾獲×××院長獎特別獎、×××優秀博士論文獎,以及第14屆智能體與多智能體國際會議(AAMAS 2015)最佳應用論文獎。此外,他還是中科大“藍鷹”足球機器人團隊的核心成員,多次參加RoboCup機器人學術競賽,並獲得3項世界冠軍和1項世界亞軍。他曾擔任 AIJ、JAIR、JAAMAS、ACM Trans 等國際人工智能學術期刊的審稿人,以及AAAI、IJCAI、AAMAS等國際人工智能學術會議的程序委員會委員。


演講內容


本演講介紹了在以足球爲代表的多人競技遊戲中,要求多個智能體能夠在動態不確定性環境中自主的做出決策,配合隊友與對手對抗並最終贏得比賽。針對這類挑戰性問題,吳鋒教授的團隊發展出了基於馬爾科夫決策過程的技術路線,設計了高效的多智能體分佈式在線決策系統。該系統成功應用於足球機器人中,在國際機器人競賽中連續十年保持世界前二,顯示出了良好的穩定性和適應性。


以下爲演講全文(爲便於閱讀進行過適當編輯整理):


2.jpg


大家好,我將分享一下我們在“多智能體分佈式在線決策”方面的研究工作。和前面的幾位專家的強化學習研究方向不同,我們採用的是基於模型(model-based)的方法,這是一種比較經典用於推理決策的方法。這種方法在數據很少或很難獲得數據的場景中有時也能取得很好的表現。


這是我報告的提綱。首先我會介紹一下我們研究的背景,即遊戲中的智能決策。然後我會介紹一下我們所採用的模型,即局部可觀察的隨機博弈。針對這樣的模型和問題,最後我會介紹一下我們設計的高效求解算法。


首先是我們的背景。作爲檢測機器是否具有智能的一個重要手段,智力遊戲受到了AI研究者的廣泛青睞。從早期的“深藍”到近期的“AlphaGo”,機器每一次戰勝人類的世界冠軍都會引起轟動,成爲AI發展史上的一個里程碑。在這類遊戲中,都要求機器能夠做出複雜的決策,並且達到可與人類媲美的水平。當前這類問題的研究逐漸從完全信息和確定性的棋類遊戲轉向了信息不完全且具有不確定性的遊戲(比如撲克、《星際爭霸》),並且已經取得了不俗的成果。


3.jpg


對於《王者榮耀》這樣的多人在線遊戲,它的決策問題也有一些自身的特點;比如玩家需要利用手機屏幕上看到的有限信息(包括左上角的小地圖)對形勢做出判斷,然後實時做出決策並採取相應操作。同時玩家控制的英雄還具備不同的能力和屬性,有些是肉盾型的(比如坦克和戰士),有些是輸出型的(比如射手和刺客),還有一些是控制型的(比如法師和輔助)。他們之間需要相互配合共同完成殺敵和推塔這樣的任務,同時這樣的任務還具有隨機不確定性;比如在玩遊戲時會有“順風局”和“逆風局”的說法。針對多人在線遊戲問題的研究現在有很多,而且涉及到很多不同的遊戲。


4.jpg


其中的焦點問題之一是足球遊戲,足球在電子遊戲流行之前就已經風靡全球了。在足球比賽中,球員需要根據視野中獲得的有限信息做出判斷,決定這個球怎麼踢。不同的球員之間也有不同的能力和一定的屬性,比如有的球員跑得比較快、有的個子比較高、有的耐力比較好、有的射門比較準。不同球員之間不同的身體素質決定了他們不同的能力。但他們之間還需要相互配合,共同完成防禦對手、射門得分等任務。另外足球比賽還具有很強的隨機不確定性,在比賽中經常會出現一些黑馬球隊改寫整個比賽的進程,給大家帶來一些驚喜。


所以,簡單比較我們可以發現,足球問題其實和《王者榮耀》等多人在線遊戲是非常接近的,特別是在決策問題方面,它們具有很多相似性。


5.jpg


早在 1997 年深藍戰勝人類國際象棋世界冠軍的時候,就有一些頂尖研究者開始尋找下一個挑戰目標了,他們相中了足球。他們在那一年發起了一個學術競賽活動——RoboCup(機器人世界盃)。當時他們制定了極具野心的目標:在 2050 年左右設計出一支能夠戰勝當時的人類世界盃冠軍球隊的機器人球隊。經過了二十多年的發展,RoboCup 已經成爲了國際上規模最大且最有影響力的機器人賽事之一。


6.jpg


RoboCup 中有很多專門針對足球的項目,比如雙足、輪式、仿真。今天我主要介紹的是和多人遊戲最接近的仿真遊戲。在足球仿真競賽中,由於是在電腦上進行仿真,所以能擺脫機器人硬件發展相對滯後的束縛。仿真比賽中採用了與真實足球非常相同的規則,就是每支球隊有 11 個異構球員和 1 個教練,其中 11 個異構球員有不同的能力和屬性(比如跑步速度、耐力等等)。在決策方面,這個問題有一些核心難點,比如信息有限、需要各個智能體自主決策、動作帶有很強的不確定性。仿真設計只是對控制和感知方面進行了一些必要的抽象,所以這個問題就更注重球員之間的相互配合和團隊協作。因此,這個問題的研究重點是動態和不確定性環境中的多智能體系統的決策。


7.jpg


針對這樣的問題,我們採用了一種稱爲“局部可觀察隨機博弈”的模型(簡稱POSG),可以建模多個智能體在動態不確定環境中的對抗和合作。在這個模型中它有N個智能體集合,每個智能體會在環境中執行相應的動作,執行的動作會導致這個環境發生一定的狀態轉移,然後每個智能體又會獲得各自的觀察。這是把不確定的多智能體對抗問題抽象成了動態可觀察的隨機博弈問題。比如在足球中,一個智能體就是一個球員,能夠執行各種踢球、奔跑的動作,它獲得的觀察是它視野內可以看到的球、隊友以及對手的信息。比如在《王者榮耀》遊戲中,每個智能體代表的是一個英雄,每個英雄有自己的動作集和觀察集——不同的英雄有不同的技能,觀察能力也不一樣。


在這個模型中,轉移函數是刻畫每個智能體的動作效果,觀察函數是建模每個智能體的感知能力,回報函數是描述每個智能體的主要任務。我們求解的這個模型的目標是獲得一組策略,以最大化每個智能體的收益。


8.jpg


每個智能體的策略通常可以表示成策略樹的形式。每個智能體都有自己的策略樹,策略樹的節點代表你需要執行的動作,每條邊表示智能體在環境中可能獲得的觀察。在執行的時候從根節點開始,根據獲得的一系列觀察執行一個動作序列。


9.jpg


在機器人足球發展的早期,很多球隊都是基於規則的,因爲這種方法比較簡單。但是基於規則的方法有個問題:需要人工地爲每個機器人寫一棵策略樹,這個過程既複雜又繁瑣,而且也不能保證策略的質量。最重要的是策略樹的分支太多了!在一步決策時,策略樹非常簡單,每個智能體可能只有兩個策略。在兩步決策時,就變得很多了,但還可以接受。三步的時候就非常多了。六、七步的時候可能就變成了天文數字。事實上,這類問題的策略空間會隨問題的規模呈雙指數爆炸式增長。


10.jpg


在這麼大的策略空間中,智能體很難爲自己找到最優解。而且每個智能體在挑選最優策略時不僅要考慮環境狀態的變化,同時還要考慮其它智能體可能會採取的策略。比如,在足球比賽過程中,你不僅要考慮球的位置和自己的狀態,還要考慮你的隊友或對手可能會採取什麼策略來幫助或制衡你。隊友和對手可能採取的策略會最終決定你自己的策略選擇。也就是說,每個智能體在進行決策時所需要考慮的因素處在非常高維的空間,而且這個高維空間的維度還會隨問題規模的增大而爆炸式增長。所以我們已經從理論上證明了這類可觀察隨機博弈問題的計算複雜度是 NEXP 難的,比普通的 NP 難問題要複雜得多。


11.jpg


問題雖然很難,但還是有辦法進行求解。下面介紹一下我們在求解該模型上的一些嘗試。簡單來說,多智能體的分佈式在線規劃就是在在線執行時每個智能體都獨立執行多步前瞻搜索,然後選擇一個最優動作來執行。這和很多博弈過程中所採用的蒙特卡羅樹搜索非常接近,但主要區別在於多智能體分佈式在線規劃的所有智能體會同時進行決策,而不是一人一步回合制地決策。因此這就需要對其它智能體的決策進行預判。同時每個智能體所得到的信息都是不完全的,沒有全局信息,所以需要根據獲得的局部信息維護一個信念狀態,即全局信息的一個概率分佈。


12.jpg


更具體地說,我們在前瞻搜索的時候採取了一個策略,即把多步隨機博弈分解成多個單步子博弈,然後在搜索樹的每個節點計算子博弈的均衡解。搜索結束之後,我們會回溯更新,沿着搜索路徑更新每個節點的收益函數。此外我們還會根據對手的特點和實際反應來調整整個搜索過程中的模型參數,因爲有些隊伍在某些策略失敗之後可能會轉向其它策略,所以就會存在在線學習的過程。


13.jpg


這裏有兩個值得一提的關鍵技術。一個是基於關係圖的博弈快速求解,它的主要想法是爲每個智能體指定不同的角色,用智能體之間的角色和行爲的相關性來簡化單步博弈均衡解的計算。比如在足球中有一定的陣型,不同的球員會有不同的角色分配(比如後衛、中場、前鋒)。根據這些信息就能夠對博弈問題進行快速求解。


14.jpg


另一個嘗試是針對具體問題的分層規劃。智能體的行爲從上到下會有不同層次,這樣劃分之後就能夠在不同層次上進行處理,從而提高搜索效率。比如在足球問題中,有“進攻”這樣的高層策略,也有“踢球”這樣的底層具體動作;如果全部一起規劃,問題求解可能就會非常低效。


15.jpg


最後對我們的研究工作進行一個總結。在這個報告中,我們說到多人在線遊戲中的決策問題可以利用POSG(部分可觀察的隨機博弈)來進行建模,但該問題的求解非常困難,極具挑戰性。我們提出的分佈式在線規劃可以有效地求解該類問題,在足球仿真遊戲中表現突出。另外,如何深度結合機器學習來提高性能仍是一個開放性的問題。


此外,我們研究的不僅適用於足球、《王者榮耀》,它其實是比較通用的AI技術。我們也把我們的主要技術用在了實體機器人身上,當前也取得了不錯的效果。


謝謝大家!



延伸閱讀


在去年11月8日舉辦的騰訊2017全球合作伙伴大會上,騰訊AI Lab披露了AI發展佈局的最新動態。本文轉載遊戲AI佈局演講的乾貨內容,介紹遊戲AI研究的挑戰與應對。更多內容可以點擊文章【重磅 | 騰訊提出共享AI,搶先佈局遊戲與多媒體AI,首秀同聲傳譯】查看。


16.jpg

《遊戲AI:虛擬世界對物理世界的賦能》

演講人:騰訊AI Lab機器學習中心負責人 劉晗博士


17.jpg


我們最想強調的,是遊戲AI研究的奧義——遠不止於遊戲本身。這是一個富有挑戰而令人振奮的研究課題,研究當中累積的經驗、方法與結論,能在更廣大深遠的範圍被利用。首先是打通×××世界的藩籬,從而賦能物理世界,比如無人車和機器人的發展;其次,遊戲中對話智能的研究,或能成爲通向強人工智能的重要路徑;第三,研究遊戲中人、智能體和環境的交互,能讓智慧城市這樣複雜而意義深遠的項目受益。


遊戲AI是人工智能與博弈論的一個交叉領域。從小的方面來說,遊戲AI研究如何用人工智能技術來提升人類玩遊戲的體驗。從大的方面來說,遊戲AI研究人,智能體,以及環境之間的複雜交互關係。 遊戲AI驅動了人工智能的發展,從國際象棋到圍棋擊敗人類頂尖高手,而目前所挑戰的遊戲已從棋盤類轉向《星際爭霸》Real Time Strategy(RTS)和《DOTA 2》Multi-Player Online Battle Arena (MOBA)等遊戲。


18.jpg


遊戲AI涉及到三個核心能力:對外界環境的感知,根據狀態做出的決策,人與智能體之間的對話。比如在圍棋的遊戲場景,可以通過感知棋盤的全局表達狀態決定在哪裏落子。而現實中的無人車,同樣可以通過視覺,激光雷達的感知對方向盤,剎車等動作做出決策。


19.jpg


理解了遊戲AI的三個核心能力。接下來我解釋研究中三個核心挑戰,及騰訊的解決方案。


第一個挑戰是遊戲的狀態空間過大。比如很多戰略型遊戲的狀態空間是無窮維,遠大於圍棋空間。騰訊提出了一套整合了模型,算法,與計算體系結構的解決方案,叫做騰訊機器大腦,整個系統的核心是使用深度神經網絡來建模超大規模的狀態空間。

 

第二個挑戰是許多複雜的多玩家遊戲需要多個智能體協調操作,目前這方面理論比較缺乏。爲設計出一個完善的多智能體AI,一個核心問題是將強化學習的價值網絡與描述宏觀戰略的行爲樹進行互操作,並使其融合。

 

第三個挑戰是絕大部分遊戲AI是用模擬器在一個理想化的虛擬世界中開發。如何打通×××,又是一個核心挑戰。我們的解決方案結合反向強化學習及動態探索機制,對遊戲AI中的參數進行貝葉斯升級。這樣得到的系統能保證在現實世界花最小的成本,就能成功部署。


20.jpg


這一套感知、對話與決策模塊,形成了一套通用系統,未來有望在現實中被應用到更多場景中,這就是我們說的虛擬對現實的賦能。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章