機器博弈 (二) 遺憾最小化算法

  現代的博弈論快速與人工智能進行結合,形成了以數據驅動的博弈論新的框架。博弈論與計算機科學的交叉領域非常多,有以下幾個方面:

  • 理論計算機科學:算法博弈論
  • 人工智能:多智能體系統、AI遊戲、人機交互、機器學習、廣告推薦等。
  • 互聯網:互聯網經濟、共享經濟。
  • 分佈式系統:區塊鏈。

  人工智能與博弈論結合,形成了兩個主要研究方向:1. 博弈策略的求解;2. 博弈規則的設計。

  博弈論提供了許多問題的數學模型。納什定理確定了博弈過程問題存在解。人工智能的方法可以用來求解均衡局面或者最優策略。

  主要研究的問題就是:如何高效求解博弈參與者的策略以及博弈的均衡局勢。

  其應用領域主要有:

  • 大規模搜索空間的問題求解:圍棋。
  • 非完美信息博弈問題求解:德州撲克。
  • 網絡對戰遊戲智能:Dota、星球大戰。
  • 動態博弈的均衡解:廠家競爭、信息安全。

遺憾最小化算法(Regret Minimization):

  我們對遺憾最優化算法(RM)中符號做若干定義:

  • 假設一共有NN個玩家。玩家ii所採用的策略表示爲σi\sigma_{i}
  • 對於每個信息集IiξiI_{i} \in \xi_{i}σi(Ii)A(Ii)[0,1]\sigma_{i}(I_{i}):A(I_{i}) \rightarrow [0,1]是在動作集A(Ii)A(I_{i})上的概率分佈函數。玩家ii的策略空間用i\sum_{i}表示。
  • 一個策略組包含所有玩家策略,用σ=(σ1\sigma =(\sigma_{1},σ2\sigma_{2},\cdots,σN)\sigma_{|N|})
  • σi\sigma_{-i}表示σ\sigma中除了σi\sigma_{i}之外的策略(即除去玩家ii所採用的策略)。
  • 在博弈對決中,不同玩家在不同時刻會採取相應策略以及行動。策略σ\sigma下對應的動作序列hh發生概率表示爲πσ(h)\pi^{\sigma}(h)。於是,πσ(h)=iNπiσ(h)\pi^{\sigma}(h)=\prod_{i \in N} \pi_{i}^{\sigma}(h),這裏πiσ(h)\pi_{i}^{\sigma}(h)表示玩家ii使用策略σi\sigma_{i}促使行動序列hh發生的概率。除玩家ii以外,其他玩家通過各自策略促使行動序列hh發生的概率可表示爲:πiσ(h)=iN /{i}πjσ(h)\pi_{-i}^{\sigma}(h)=\prod_{i \in N \ / \{i\}} \pi_{j}^{\sigma}(h)
  • 對於每個玩家iNi \in NuiZRu_{i}:Z \rightarrow R表示玩家ii的收益函數,即在到達終止序列集合ZZ中某個終止序列時,玩家ii所得到的收益。
  • 玩家ii在給定策略σ\sigma下所能得到的期望收益可如下計算:ui(σ)=hZui(h)πσ(h)u_{i}(\sigma)=\sum_{h \in Z}u_{i}(h)\pi^{\sigma}(h)

最佳反應策略與納什均衡

  我們來看一下遺憾最小化算法下的最佳反應策略和納什均衡。

  • 玩家ii對於所有玩家的策略組σi\sigma_{-i}的最佳反應策略σi\sigma_{i}^{*}滿足如下條件:

ui(σi,σi)maxσiiui(σi,σi) u_{i}(\sigma_{i}^{*},\sigma_{-i}) \geq max_{\sigma_{i}^{'}\in \sum_{i}} u_{i}(\sigma_{i}^{'},\sigma_{-i})

  即玩家ii採用其它策略獲得的收益小於採用最佳策略所能獲得的收益。(這裏其它玩家策略保持不變。)

  在策略組σ\sigma中,如果每個玩家的策略相對於其他玩家的策略而言都是最佳反應策略,那麼策略組σ\sigma就是一個納什均衡(Nash equilibrium)策略。

  納什均衡:策略組σ=(σ1\sigma =(\sigma_{1}^{*},σ2\sigma_{2}^{*},\cdots,σN)\sigma_{|N|}^{*})是納什均衡當且僅當對每個玩家iNi \in N,滿足如下條件:

ui(σ)maxσiui(σi,σ2,,σi,,σN) u_{i}(\sigma) \geq max_{\sigma_{i}^{'}} u_{i}(\sigma_{i}^{*},\sigma_{2}^{*}, \cdots , \sigma_{i}^{'}, \cdots, \sigma_{|N|}^{*})

ε\varepsilon-納什均衡與平均遺憾值

  • ε\varepsilon-納什均衡

    • 對於給定的正實數ε\varepsilon,策略組σ\sigmaε\varepsilon-納什均衡當且僅當對於每個玩家iNi \in N,滿足如下條件:
      ui(σ)+εmaxσiiui(σi,σi) u_{i}(\sigma) + \varepsilon \geq max_{\sigma_{i}^{'} \in \sum_{i}}u_{i}(\sigma_{i}^{'},\sigma_{-i})
  • 平均遺憾值(average overall regret):假設博弈能夠重複地進行(如圍棋等),令第tt次博弈時的策略組爲σt\sigma^{t},若博弈已經進行了MM次,則這MM次博弈對於玩家iNi \in N的平均遺憾值定義爲:

RegretiM=1Mmaxσiii=1M(ui(σi,σit)ui(σt)) \overline{Regret_{i}^{M}} = \frac{1}{M}max_{\sigma_{i}^{*} \in \sum_{i}}\sum_{i=1}^{M}(u_{i}(\sigma_{i}^{*},\sigma_{-i}^{t})-u_{i}(\sigma^{t}))

策略選擇

  • 遺憾最小化算法是一種根據過去博弈中的遺憾程度來決定將來動作選擇的方法
  • 在博弈中,玩家ii在第TT輪次(每一輪表示一次博弈完成)採取策略σi\sigma_{i}的遺憾值定義如下(累加遺憾):

RegretiT(σi)=t=1T(μi(σi,σit)μi(σt)) Regret_{i}^{T}(\sigma_{i})=\sum_{t=1}^{T}(\mu_{i}(\sigma_{i},\sigma_{-i}^{t})-\mu_{i}(\sigma^{t}))

  • 通常遺憾值爲負數的策略被認定爲不能提升下一時刻收益,所以這裏考慮的遺憾值均爲正數或0;

  • 計算得到玩家ii在第TT輪次採取策略σi\sigma_{i}的遺憾值後,在第T+1T+1輪次玩家ii選擇策略aa的概率如下(悔值越大、越選擇,即亡羊補牢):

P(a)=RegretiT(a)bRegretiT(b) P(a) = \frac{Regret_{i}^{T}(a)}{\sum_{b \in {所有可能選擇策略}}Regret_{i}^{T}(b)}

Rock-Paper-Scissors,RPS 例子

  • 假設兩個玩家AABB進行石頭-剪刀-布(Rock-Paper-Scissors,RPS)的遊戲,獲勝玩家收益爲1分,失敗玩家收益爲-1分,平局則兩個玩家收益均爲零分。

  • 第一局時,若玩家AA出石頭(RR),玩家BB出布(PP),則此時玩家AA的收益μA(R,P)=1\mu_{A}(R,P)=-1,玩家BB的收益爲μB(P,R)=1\mu_{B}(P,R)=1

  • 對於玩家AA來說,在玩家BB出布(PP)這個策略情況下,如果玩家AA選擇出布(PP)或者剪刀(SS),則玩家AA對應的收益值μA(P,P)=0\mu_{A}(P,P)=0或者μA(S,P)=1\mu_{A}(S,P)=1

  • 所以第一局之後,玩家AA沒有出布的遺憾值爲:

μA(P,P)μA(R,P)=0(1)=1\mu_{A}(P,P)-\mu_{A}(R,P)=0 -(-1)=1

  沒有出剪刀的遺憾值爲:

μA(S,P)μA(R,P)=1(1)=2\mu_{A}(S,P)-\mu_{A}(R,P)=1-(-1)=2

  • 所以在第二局中,玩家AA選擇石頭、剪刀和布這三個策略的概率分別爲0、2/3、1/3。因此,玩家AA趨向於在第二局中選擇出剪刀這個策略

  • 在第一輪中,玩家AA選擇石頭和玩家BB選擇布、在第二局中玩家AA選擇剪刀和玩家BB選擇石頭情況下,則玩家AA每一輪遺憾值及第二輪後的累加遺憾取值如下:

  • 從上表可知,在第三局時,玩家AA選擇石頭、剪刀和布的概率分別爲1/6、2/6、3/6
  • 在實際使用中,可以通過多次模擬迭代累加遺憾值找到每個玩家在每一輪次的最優策略。
  • 但是當博弈狀態空間呈指數增長時,對一個規模巨大的博弈樹無法採用最小遺憾算法

我的微信公衆號名稱:深度學習與先進智能決策
微信公衆號ID:MultiAgent1024
公衆號介紹:主要研究分享深度學習、機器博弈、強化學習等相關內容!期待您的關注,歡迎一起學習交流進步!

發佈了148 篇原創文章 · 獲贊 135 · 訪問量 18萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章