機器博弈 (二) 遺憾最小化算法

現代的博弈論快速與人工智能進行結合，形成了以數據驅動的博弈論新的框架。博弈論與計算機科學的交叉領域非常多，有以下幾個方面：

理論計算機科學：算法博弈論
人工智能：多智能體系統、AI遊戲、人機交互、機器學習、廣告推薦等。
互聯網：互聯網經濟、共享經濟。
分佈式系統：區塊鏈。

人工智能與博弈論結合，形成了兩個主要研究方向：1. 博弈策略的求解；2. 博弈規則的設計。

博弈論提供了許多問題的數學模型。納什定理確定了博弈過程問題存在解。人工智能的方法可以用來求解均衡局面或者最優策略。

主要研究的問題就是：如何高效求解博弈參與者的策略以及博弈的均衡局勢。

其應用領域主要有：

大規模搜索空間的問題求解：圍棋。
非完美信息博弈問題求解：德州撲克。
網絡對戰遊戲智能：Dota、星球大戰。
動態博弈的均衡解：廠家競爭、信息安全。

遺憾最小化算法(Regret Minimization)：

我們對遺憾最優化算法(RM)中符號做若干定義：

假設一共有 $N$ 個玩家。玩家 $i$ 所採用的策略表示爲 $\sigma_{i}$ 。
對於每個信息集 $I_{i} \in \xi_{i}$ ， $\sigma_{i}(I_{i})：A(I_{i}) \rightarrow [0,1]$ 是在動作集 $A(I_{i})$ 上的概率分佈函數。玩家 $i$ 的策略空間用 $\sum_{i}$ 表示。
一個策略組包含所有玩家策略，用 $\sigma =(\sigma_{1}$ , $\sigma_{2}$ , $\cdots$ , $\sigma_{|N|})$ 。
$\sigma_{-i}$ 表示 $\sigma$ 中除了 $\sigma_{i}$ 之外的策略(即除去玩家 $i$ 所採用的策略)。
在博弈對決中，不同玩家在不同時刻會採取相應策略以及行動。策略 $\sigma$ 下對應的動作序列 $h$ 發生概率表示爲 $\pi^{\sigma}(h)$ 。於是， $\pi^{\sigma}(h)=\prod_{i \in N} \pi_{i}^{\sigma}(h)$ ，這裏 $\pi_{i}^{\sigma}(h)$ 表示玩家 $i$ 使用策略 $\sigma_{i}$ 促使行動序列 $h$ 發生的概率。除玩家 $i$ 以外，其他玩家通過各自策略促使行動序列 $h$ 發生的概率可表示爲： $\pi_{-i}^{\sigma}(h)=\prod_{i \in N \ / \{i\}} \pi_{j}^{\sigma}(h)$ 。
對於每個玩家 $i \in N$ ， $u_{i}：Z \rightarrow R$ 表示玩家 $i$ 的收益函數，即在到達終止序列集合 $Z$ 中某個終止序列時，玩家 $i$ 所得到的收益。
玩家 $i$ 在給定策略 $\sigma$ 下所能得到的期望收益可如下計算： $u_{i}(\sigma)=\sum_{h \in Z}u_{i}(h)\pi^{\sigma}(h)$ 。

最佳反應策略與納什均衡

我們來看一下遺憾最小化算法下的最佳反應策略和納什均衡。

玩家 $i$ 對於所有玩家的策略組 $\sigma_{-i}$ 的最佳反應策略 $\sigma_{i}^{*}$ 滿足如下條件：

$u_{i}(\sigma_{i}^{*},\sigma_{-i}) \geq max_{\sigma_{i}^{'}\in \sum_{i}} u_{i}(\sigma_{i}^{'},\sigma_{-i})$

即玩家 $i$ 採用其它策略獲得的收益小於採用最佳策略所能獲得的收益。(這裏其它玩家策略保持不變。)

在策略組 $\sigma$ 中，如果每個玩家的策略相對於其他玩家的策略而言都是最佳反應策略，那麼策略組 $\sigma$ 就是一個納什均衡(Nash equilibrium)策略。

納什均衡：策略組 $\sigma =(\sigma_{1}^{*}$ , $\sigma_{2}^{*}$ , $\cdots$ , $\sigma_{|N|}^{*})$ 是納什均衡當且僅當對每個玩家 $i \in N$ ，滿足如下條件：

$u_{i}(\sigma) \geq max_{\sigma_{i}^{'}} u_{i}(\sigma_{i}^{*},\sigma_{2}^{*}, \cdots , \sigma_{i}^{'}, \cdots, \sigma_{|N|}^{*})$

$\varepsilon$ -納什均衡與平均遺憾值

$\varepsilon$ -納什均衡：
- 對於給定的正實數 $\varepsilon$ ，策略組 $\sigma$ 是 $\varepsilon$ -納什均衡當且僅當對於每個玩家 $i \in N$ ，滿足如下條件：
  $u_{i}(\sigma) + \varepsilon \geq max_{\sigma_{i}^{'} \in \sum_{i}}u_{i}(\sigma_{i}^{'},\sigma_{-i})$
平均遺憾值(average overall regret)：假設博弈能夠重複地進行(如圍棋等)，令第 $t$ 次博弈時的策略組爲 $\sigma^{t}$ ，若博弈已經進行了 $M$ 次，則這 $M$ 次博弈對於玩家 $i \in N$ 的平均遺憾值定義爲：

$\overline{Regret_{i}^{M}} = \frac{1}{M}max_{\sigma_{i}^{*} \in \sum_{i}}\sum_{i=1}^{M}(u_{i}(\sigma_{i}^{*},\sigma_{-i}^{t})-u_{i}(\sigma^{t}))$

策略選擇

遺憾最小化算法是一種根據過去博弈中的遺憾程度來決定將來動作選擇的方法
在博弈中，玩家 $i$ 在第 $T$ 輪次(每一輪表示一次博弈完成)採取策略 $\sigma_{i}$ 的遺憾值定義如下(累加遺憾)：

$Regret_{i}^{T}(\sigma_{i})=\sum_{t=1}^{T}(\mu_{i}(\sigma_{i},\sigma_{-i}^{t})-\mu_{i}(\sigma^{t}))$

通常遺憾值爲負數的策略被認定爲不能提升下一時刻收益，所以這裏考慮的遺憾值均爲正數或0；
計算得到玩家 $i$ 在第 $T$ 輪次採取策略 $\sigma_{i}$ 的遺憾值後，在第 $T+1$ 輪次玩家 $i$ 選擇策略 $a$ 的概率如下(悔值越大、越選擇，即亡羊補牢)：

$P(a) = \frac{Regret_{i}^{T}(a)}{\sum_{b \in {所有可能選擇策略}}Regret_{i}^{T}(b)}$

Rock-Paper-Scissors，RPS 例子

假設兩個玩家 $A$ 和 $B$ 進行石頭-剪刀-布(Rock-Paper-Scissors，RPS)的遊戲，獲勝玩家收益爲1分，失敗玩家收益爲-1分，平局則兩個玩家收益均爲零分。
第一局時，若玩家 $A$ 出石頭( $R$ )，玩家 $B$ 出布( $P$ )，則此時玩家 $A$ 的收益 $\mu_{A}(R,P)=-1$ ，玩家 $B$ 的收益爲 $\mu_{B}(P,R)=1$ 。
對於玩家 $A$ 來說，在玩家 $B$ 出布( $P$ )這個策略情況下，如果玩家 $A$ 選擇出布( $P$ )或者剪刀( $S$ )，則玩家 $A$ 對應的收益值 $\mu_{A}(P,P)=0$ 或者 $\mu_{A}(S,P)=1$ 。
所以第一局之後，玩家 $A$ 沒有出布的遺憾值爲：

$\mu_{A}(P,P)-\mu_{A}(R,P)=0 -(-1)=1$ ，

沒有出剪刀的遺憾值爲：

$\mu_{A}(S,P)-\mu_{A}(R,P)=1-(-1)=2$ 。

所以在第二局中，玩家 $A$ 選擇石頭、剪刀和布這三個策略的概率分別爲0、2/3、1/3。因此，玩家 $A$ 趨向於在第二局中選擇出剪刀這個策略。
在第一輪中，玩家 $A$ 選擇石頭和玩家 $B$ 選擇布、在第二局中玩家 $A$ 選擇剪刀和玩家 $B$ 選擇石頭情況下，則玩家 $A$ 每一輪遺憾值及第二輪後的累加遺憾取值如下：

從上表可知，在第三局時，玩家 $A$ 選擇石頭、剪刀和布的概率分別爲1/6、2/6、3/6
在實際使用中，可以通過多次模擬迭代累加遺憾值找到每個玩家在每一輪次的最優策略。
但是當博弈狀態空間呈指數增長時，對一個規模巨大的博弈樹無法採用最小遺憾算法。

我的微信公衆號名稱：深度學習與先進智能決策
微信公衆號ID：MultiAgent1024
公衆號介紹：主要研究分享深度學習、機器博弈、強化學習等相關內容！期待您的關注，歡迎一起學習交流進步！

小小何先生

發佈了148 篇原創文章 · 獲贊 135 · 訪問量 18萬+

私信關注

機器博弈 (二) 遺憾最小化算法

遺憾最小化算法(Regret Minimization)：

最佳反應策略與納什均衡

$\varepsilon$ -納什均衡與平均遺憾值

策略選擇

Rock-Paper-Scissors，RPS 例子

FPGA智能傳感系統(二)基於FPGA的交通燈設計

Python進階(一)Python中的內置函數詳解

Python進階(六)文件操作

Python進階(五)模塊、包詳解

Python進階(四)Python中的異常

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

機器博弈 (二) 遺憾最小化算法

遺憾最小化算法(Regret Minimization)：

最佳反應策略與納什均衡

ε\varepsilonε-納什均衡與平均遺憾值

策略選擇

Rock-Paper-Scissors，RPS 例子

$\varepsilon$ -納什均衡與平均遺憾值