機器博弈 (三) 虛擬遺憾最小化算法

虛擬遺憾最小化算法(Counterfactual Regret Minimization)

如果不能遍歷計算機所有節點的遺憾值，那麼可以採用虛擬遺憾最小化算法來進行模擬計算。
假設：
- 集合 $A$ 是博弈中所有玩家所能採用的行爲集(如在石頭-剪刀-布遊戲中出石頭、出剪刀或出布三種行爲)
- $I$ 爲信息集，包含了博弈的規則以及玩家採取的歷史行動，在信息集 $I$ 下所能採取的行爲集合記爲 $A(I)$ 。
玩家 $i$ 在第 $t$ 輪次採取的行動 $a_{i} \in A(I_{i})$ 反映了其在該輪次所採取的策略 $\sigma_{i}^{t}$ 。包含玩家 $i$ 在內的所有玩家在 $t$ 輪次採取的行動 $a \in A(I)$ 構成了一組策略組合 $\sigma^{t}$ 。
在信息集 $I$ 下採取行動 $a$ 所反映的策略記爲 $\sigma_{I \rightarrow a}$ 。
在第 $t$ 輪次所有玩家採取的行動是一條序列，記爲 $h$ 。採取某個策略 $\sigma$ 計算行動序列 $h$ 出現的概率記爲 $\pi^{\sigma}(h)$ 。
每個信息集 $I$ 發生的概率 $\pi^{\sigma}(I)=\sum_{h \in I}\pi^{\sigma}(h)$ ，表示所有能夠到達該信息集的行動序列的概率累加。
給定博弈的終結局勢 $z \in Z$ ，玩家 $i$ 在遊戲結束後的收益記做 $u_{i}(z)$ 。
在策略組合 $\sigma$ 下，施加博弈行動序列 $h$ 後達到最終局勢 $z$ 的概率爲 $\pi^{\sigma}(h,z)$ 。

有了這些定義之後，我們現在來計算虛擬遺憾：

當採取策略 $\sigma$ 時，其所對應的行動序列 $h$ 的虛擬價值(Counterfactual Value)如下計算(注：行動序列 $h$ 未能使博弈進入終結局勢)：

$v_{i}(\sigma,h)=\sum_{z \in Z} \pi_{-i}^{\sigma}(h)\pi^{\sigma}(h,z)u_{i}(z)$

我們首先去計算其他玩家在產生行動序列 $h$ 中他們的概率值是多少，乘以在這個策略下，從行動序列 $h$ 進入到終止局勢 $z$ 的概率，最終再乘以玩家 $i$ 在終止局勢 $z$ 的概率。之後對終止局勢做一個遍歷，把它的乘積做一個累加。

玩家 $i$ 採取行動 $a$ 所得到的虛擬遺憾值：

$r(h,a)=v_{i}(\sigma_{I \rightarrow a},h) - v_{i}(\sigma,h)$

行動序列 $h$ 所對應的信息集 $I$ 遺憾值爲：

$r(I,a)=\sum r(h,a)$

玩家 $i$ 在第 $T$ 輪次採取行動 $a$ 的遺憾值爲：

$Regret_{t}^{T}(I,a)=\sum_{t=1}^{T}r_{i}^{t}(I,a)$

同樣，對於遺憾值爲負數的情況，我們不予考慮，記：

$Regret_{i}^{T,+}(I,a) = max(R_{i}^{T}(I,a),0)$

在 $T+1$ 輪次，玩家 $i$ 選擇行動 $a$ 的概率計算如下：

$\sigma_{i}^{T+1}(I,a) = \left\{\begin{matrix} \frac{Regret_{i}^{T,+}(I,a)}{\sum_{}a \in A(I)Regret_{i}^{T,+}(I,a)}& if \sum_{a \in A(I)}Regret_{i}^{T,+}(I,a)>0\\ \frac{1}{|A(I)|} & otherwise \end{matrix}\right.$

玩家 $i$ 根據遺憾值大小來選擇下一時刻行爲，如果遺憾值爲負數，則隨機挑選一種行爲進行博弈。

例子-庫恩撲克(Kunh’s pocker)

庫恩撲克是最簡單的限注撲克遊戲，由兩名玩家進行遊戲博弈，牌值只有1，2和3三種情況。
每輪每位玩家各持一張手牌，根據各自判斷來決定加定額賭注。
遊戲沒有公共牌，攤牌階段比較未棄牌玩家的底牌大小，底牌牌值最大的玩家即爲勝者。
遊戲規則：

庫恩撲克(Kunh’s pocker)：以先手玩家(定義爲玩家 $A$ )爲例的博弈樹：

從初始節點開始，1、2、3分別表示玩家 $A$ 手中的牌，當玩家拿了1之後，玩家 $B$ 只能拿2或者3。玩家 $A$ 選擇過牌還是加註，玩家 $B$ 也可以選擇過牌還是加註。依次進行下去，就構建了博弈樹。

在這個博弈樹裏面，總共的信息集與12個：{1,1P,1B,1BP,2,2P,2B,2BP,3,3P,3B,3BP}。
每個信息集由不同路徑可以到達。如信息集1PB可通過如下路徑到達：

$1_{玩家A拿到大小爲1的紙牌}\rightarrow 1P_{玩家A採取過牌行動} \rightarrow 1PB_{玩家B採取加註行動}$

可見信息集 $1PB$ 所對應的行動序列爲{P,B}

在該問題中，到達每個信息集的路勁均唯一，因此所有信息集僅對應一個行動序列。

有了上述定義之後，我們可以採取如下算法進行策略選擇：

初始化遺憾值和累加策略表爲0
採用隨機選擇的方法來決定策略
利用當前策略與對手進行博弈
計算每個玩家採取每次行爲後的遺憾值
根據博弈結果計算每個行動的累加遺憾值大小來更新策略
重複博弈若干次
根據重複博弈最終的策略，完成最終的動作選擇

計算1PB的遺憾值

假設初始情況下，兩個玩家都以隨機選擇的策略進行決策，即在任一節點，都以50%的概率分別選擇過牌和加註
若第一輪中，玩家 $A$ 的博弈過程爲 $1 \overset{P}{\rightarrow}1P \overset{B}{\rightarrow}1PB \overset{B}{\rightarrow} Z_{2}$ ，收益爲 $u_{A}(Z_{2})=-2$ 。
計算玩家 $A$ 針對信息集 $\{1PB\}$ 選擇“過牌”行動的遺憾值：
- 在當前策略下，行動序列 $h=\{PB\}$ 產生的概率：
  $\pi_{B}^{\sigma}(h) = 1 \times 0.5 = 0.5$

由於在 $\{1PB\}$ 節點選擇加註和過牌的概率均爲50%，所以當前策略下，從行動序列 $h$ 到達終結狀態 $z_{1}$ 和 $z_{2}$ 的概率分別爲：

$\pi^{\sigma}(h,z_{1})=0.5,\pi^{\sigma}(h,z_{2})=0.5$

又已知 $u_{A}(z_{1})=-1$ ， $u_{A}(z_{2})=-2$ ，可知當前策略的虛擬價值：

$v_{A}(\sigma,h)=\pi_{B}^{\sigma}(h) \times \pi^{\sigma}(h,z_{1}) \times u_{A}(z_{1})+\pi_{B}^{\sigma}(h) \times \pi^{\sigma}(h,z_{2}) \times u_{A}(z_{2}) \\ = 0.5 \times0.5 \times (-1) + 0.5 \times 0.5 \times (-2) = -0.75$

若使用過牌策略，即 $\sigma_{\{1PB\} \rightarrow P}$ ，此時玩家 $B$ 促使行動序列 $h=\{P,B\}$ 達成的概率仍然爲 $\pi_{B}^{\sigma}(h)=0.5$ ，由於最終抵達的終結狀態只有 $z_{1}$ ，所以 $\pi^{\sigma}(h,z_{1})=1$ 。
則最終選擇過牌的虛擬價值爲：

$v_{A}(\sigma_{\{ 1PB\}\rightarrow P}, h) = \pi_{B}^{\sigma}(h) \times \pi^{\sigma}(h,z_{1}) \times u_{A}(z_{1})=0.5 \times 1 \times (-1) = -0.5$

在信息集 $\{1PB\}$ 上採取“過牌”的遺憾值

$r(I,P)=r(h,P)=v_{A}(\sigma_{\{1PB\}\rightarrow P},h)-v_{A}(\sigma, h)=(-0.5)-(-0.75)=0.25$

庫恩撲克的博弈共有12個信息集，對應上圖中的正方形和三角形
通過反覆迭代計算，可以得到到達各個信息集應採取行動的概率：

對於玩家 $A$ 而言，庫恩撲克的混合策略納什均衡的理論解如下( $\alpha \in [0,1/3]$ )：

可見，算法得到的解與理論得到的解之間較爲接近，驗證了算法的有效性。

我的微信公衆號名稱：深度學習與先進智能決策
微信公衆號ID：MultiAgent1024
公衆號介紹：主要研究分享深度學習、機器博弈、強化學習等相關內容！期待您的關注，歡迎一起學習交流進步！

小小何先生

發佈了148 篇原創文章 · 獲贊 135 · 訪問量 18萬+

私信關注

機器博弈 (三) 虛擬遺憾最小化算法

虛擬遺憾最小化算法(Counterfactual Regret Minimization)

例子-庫恩撲克(Kunh’s pocker)

計算1PB的遺憾值

linux安裝cuda和cudnn

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

Object.values()對象遍歷

我拍了拍Redis，被移出了羣聊···

網絡現代化通向雲原生應用的高速公路

面試官：說說你對序列化的理解

我宣佈，這是我找到的史上AI最全論文體系！

FPGA智能傳感系統(二)基於FPGA的交通燈設計

Python進階(一)Python中的內置函數詳解

Python進階(六)文件操作

Python進階(五)模塊、包詳解

Python進階(四)Python中的異常

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結