這三個博弈論新趨勢,正深刻影響深度強化學習

來源 | AI科技評論

作者 | Jesus Rodriguez

編譯 | 亞爾曼•佩皮

校對 | 叢末 & Camel

博弈論在代人工智能(AI)解決方案中正扮演着至關重要的角色,深度強化學習(DRL)正是積極擁抱博弈論的頭等公民。

從單智能體程序到複雜的多智能體深度強化學習環境,博弈論原理貫穿了 AI 程序的整個生命週期。而反過來,DRL 的快速演化也重新激發了人們對博弈論研究的關注。

目前,大多數 DRL 模型事實上還停留在傳統的博弈論層面,例如納什均衡或零和遊戲等。但隨着DRL的發展,傳統博弈論方法已經逐漸呈現出不足之處,而同時則有一些新的博弈論方法被納入到人工智能的程序當中。

因此,對於我們來說,若想進一步優化深度強化學習的模型,考慮融入新的博弈論方法,是值得考量的一個方向。

以下三個,正是在深刻影響 DRL 的「新」博弈論方法,或許用到你的模型中會大大改觀模型的性能。

一、平均場博弈(Mean Field Games)

在博弈論家族中,平均場博弈(MFG)還是一個相對較新的領域。

平均場博弈論誕生於 2006 年,這一理論是由兩個團隊獨立提出的,一個是蒙特利爾的 Minyi Huang、Roland Malhame 和 Peter Gaines,另一個是巴黎的 Jean-Michel Lasry和菲爾茲獎獲得者 Pierre-Louis Lions。

從概念上講,平均場博弈論是一套方法和技術的組合,它被用來研究由「理性博弈方」組成的大羣體下的差異化博弈。這些智能體不僅對自身所處的狀態(如財富、資金)有偏好,還關注其他智能體在整個樣本分佈中所處的位置。平均場博弈理論正是針對這些系統對廣義納什均衡進行了研究。

平均場博弈的經典案例是,如何訓練魚羣朝相同方向遊,或者以協作方式遊。

這個現象很難用理論解釋,但它的本質事實上是,魚會根據最靠近的魚羣的行爲做出反映。再具體點兒,每條魚並不在乎其他單個魚的行爲,而是關注附近作爲一個整體、統一移動的魚羣做出的行爲。

如果我們用數學方程表述這個原理,一方面可以用 Hamilton-Jacobi-Bellman 方程來描述魚對周邊魚羣的反應,另一方面則可以用 Fokker-Planck-Kolmogoroy 方程來表示決定整個魚羣行動的所有魚的行爲集合。

平均場博弈理論就是這兩個等式的組合。

從深度強化學習的角度來說,在研究大範圍環境中 大量智能體的表現方面,平均場博弈論扮演着重要的角色。

實驗和理論已經證實,在“接近無限多智能體、並假設採用不精確的概率模型進行操作”的環境中,已有的 DRL的方法並不具備現實可用性。

而 MFG 卻是模擬這類 DRL 環境的一個有意思的方法,非常值得嘗試。

一家叫做Prowler 的創業公司最近就在針對平均場博弈論(MFG)在大型多智能體(DRL)環境中的表現開展研究工作。

二、隨機博弈(Stochastic games)

隨機博弈可追溯到 20 世紀 50 年代,它由諾貝爾經濟學獎獲得者 Lloyd Shapley 提出。

理論上隨機博弈的規則是,讓有限多個博弈者在有限個狀態空間中進行博弈,每個博弈者在每個狀態空間都從有限個行爲中選出一個行爲,這些行爲的組合結果會決定博弈者所獲得的獎勵,並得出下一個狀態空間的概率分佈。

隨機博弈的經典案例是哲學家的晚餐問題:n+1 位哲學家(n 大於等於 1)圍坐在一個圓桌周圍,圓桌中間放了一碗米飯。每兩位鄰座的哲學家之間會放一支筷子以供這兩位取用。因爲桌子是圓形的,筷子的數量與哲學家的數量一樣多。爲了從碗中取到東西喫,哲學家需要同時從兩邊各取一支筷子組成一雙,因此,在一位哲學家喫東西時,他的兩位鄰座就無法同時進食。哲學家的生活簡單到只需要喫和思考,而爲了存活下來,哲學家需要不斷地思考和喫東西。這場博弈的任務就是設計出一個可以讓所有的哲學家都活下來的制度。

DRL 已經開始應用隨機博弈理論解決多玩家遊戲問題。在許多多玩家遊戲中,AI 智能體戰隊需要評估如何通過與其他智能體協作和競爭以最大化正向結果。

這一問題一般被稱作探索-利用困境。在 DRL 智能體中構建隨機博弈動態機制,可以有效地平衡 DRL 智能體在探索能力和利用能力方面的發展。DeepMind 在訓練 AI 掌握 Quake III 遊戲的工作中,就融合了一些隨機博弈論中的概念。

三、進化博弈(Evolutionary Games)

進化博弈理論(EGT)是從達爾文進化論中得到的啓發。

EGT 的起源可以追溯到 1973 年,當時 John Maynard Smith 和 George R.Price兩人採用「策略」分析將演化競爭形式化,並建立數學標準,從而來預測不同競爭策略所產生的結果。

從概念上來說,EGT 是博弈論在進化場景中的應用。在這種博弈中,一羣智能體通過重複選擇的進化過程,與多樣化的策略進行持續交互,從而創建出一個穩定的解決方案。

它背後的思路是,許多行爲都涉及到羣體中多個智能體間的交互,而其中某一個智能體是否獲得成功,取決於它採取的策略與其他智能體的策略如何交互。

經典博弈論將關注點放在靜態策略上,即參與者採取的策略不會隨着時間改變,而進化博弈與經典博弈論不同,它關注策略如何隨着時間演化,以及哪個動態策略是進化進程中最成功的那一個。

EGT 的經典案例是鷹鴿博弈(Howk Dove Game),它模擬了鷹與鴿之間對可共享資源的競爭。博弈中的每個競爭者都遵循以下兩種策略之中的一種:

  • 鷹:本能的強勢,充滿侵略性,除非身負重傷,否則絕不退卻。

  • 鴿:面對強勢進攻會立即逃跑。

如果假設:

1)兩個同樣強勢進攻的鷹進行搏鬥,兩者之間必然會發生衝突,且兩者都很有可能受傷;

2)衝突的代價是每人都受到一定程度的損傷,用常量 C 表示這個損失;

3)如果鷹與鴿相遇,鴿會立刻逃跑,而鷹則會佔有資源;

4)兩隻鴿相遇,則他們將公平地分享資源。鷹鴿博弈的對應收益可以用以下矩陣總結:

EGT 看上去似乎是特地爲 DRL 環境而設計的。

在多智能體的 DRL 環境中,智能體在彼此交互的過程中會週期性地調整自己的策略。而 EGT 正是一種可以高效模擬這些交互的方法。最近,OpenAI 就展示了經過這種動態訓練的智能體在玩捉迷藏遊戲時的表現(https://openai.com/blog/emergent-tool-use/)。

via https://towardsdatascience.com/new-game-theory-innovations-that-are-influencing-reinforcement-learning-24779f7e82b1

以上文章觀點僅代表文章作者,僅供參考,以拋磚引玉!

未來智能實驗室的主要工作包括:建立AI智能系統智商評測體系,開展世界人工智能智商評測;開展互聯網(城市)雲腦研究計劃,構建互聯網(城市)雲腦技術和企業圖譜,爲提升企業,行業與城市的智能水平服務。

  如果您對實驗室的研究感興趣,歡迎加入未來智能實驗室線上平臺。掃描以下二維碼或點擊本文左下角“閱讀原文”

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章