虚拟遗憾最小化算法(Counterfactual Regret Minimization)
-
如果不能遍历计算机所有节点的遗憾值,那么可以采用虚拟遗憾最小化算法来进行模拟计算。
-
假设:
- 集合A是博弈中所有玩家所能采用的行为集(如在石头-剪刀-布游戏中出石头、出剪刀或出布三种行为)
- I为信息集,包含了博弈的规则以及玩家采取的历史行动,在信息集I下所能采取的行为集合记为A(I)。
-
玩家i在第t轮次采取的行动ai∈A(Ii)反映了其在该轮次所采取的策略σit。包含玩家i在内的所有玩家在t轮次采取的行动a∈A(I)构成了一组策略组合σt。
-
在信息集I下采取行动a所反映的策略记为σI→a。
-
在第t轮次所有玩家采取的行动是一条序列,记为h。采取某个策略σ计算行动序列h出现的概率记为πσ(h)。
-
每个信息集I发生的概率πσ(I)=∑h∈Iπσ(h),表示所有能够到达该信息集的行动序列的概率累加。
-
给定博弈的终结局势z∈Z,玩家i在游戏结束后的收益记做ui(z)。
-
在策略组合σ下,施加博弈行动序列h后达到最终局势z的概率为πσ(h,z)。
有了这些定义之后,我们现在来计算虚拟遗憾:
- 当采取策略σ时,其所对应的行动序列h的虚拟价值(Counterfactual Value)如下计算(注:行动序列h未能使博弈进入终结局势):
vi(σ,h)=z∈Z∑π−iσ(h)πσ(h,z)ui(z)
我们首先去计算其他玩家在产生行动序列h中他们的概率值是多少,乘以在这个策略下,从行动序列h进入到终止局势z的概率,最终再乘以玩家i在终止局势z的概率。之后对终止局势做一个遍历,把它的乘积做一个累加。
r(h,a)=vi(σI→a,h)−vi(σ,h)
r(I,a)=∑r(h,a)
- 玩家i在第T轮次采取行动a的遗憾值为:
RegrettT(I,a)=t=1∑Trit(I,a)
RegretiT,+(I,a)=max(RiT(I,a),0)
- 在T+1轮次,玩家i选择行动a的概率计算如下:
σiT+1(I,a)={∑a∈A(I)RegretiT,+(I,a)RegretiT,+(I,a)∣A(I)∣1if∑a∈A(I)RegretiT,+(I,a)>0otherwise
- 玩家i根据遗憾值大小来选择下一时刻行为,如果遗憾值为负数,则随机挑选一种行为进行博弈。
例子-库恩扑克(Kunh’s pocker)
- 库恩扑克是最简单的限注扑克游戏,由两名玩家进行游戏博弈,牌值只有1,2和3三种情况。
- 每轮每位玩家各持一张手牌,根据各自判断来决定加定额赌注。
- 游戏没有公共牌,摊牌阶段比较未弃牌玩家的底牌大小,底牌牌值最大的玩家即为胜者。
- 游戏规则:
库恩扑克(Kunh’s pocker):以先手玩家(定义为玩家A)为例的博弈树:
从初始节点开始,1、2、3分别表示玩家A手中的牌,当玩家拿了1之后,玩家B只能拿2或者3。玩家A选择过牌还是加注,玩家B也可以选择过牌还是加注。依次进行下去,就构建了博弈树。
- 在这个博弈树里面,总共的信息集与12个:{1,1P,1B,1BP,2,2P,2B,2BP,3,3P,3B,3BP}。
- 每个信息集由不同路径可以到达。如信息集1PB可通过如下路径到达:
1玩家A拿到大小为1的纸牌→1P玩家A采取过牌行动→1PB玩家B采取加注行动
可见信息集1PB所对应的行动序列为{P,B}
- 在该问题中,到达每个信息集的路劲均唯一,因此所有信息集仅对应一个行动序列。
有了上述定义之后,我们可以采取如下算法进行策略选择:
- 初始化遗憾值和累加策略表为0
- 采用随机选择的方法来决定策略
- 利用当前策略与对手进行博弈
- 计算每个玩家采取每次行为后的遗憾值
- 根据博弈结果计算每个行动的累加遗憾值大小来更新策略
- 重复博弈若干次
- 根据重复博弈最终的策略,完成最终的动作选择
计算1PB的遗憾值
- 假设初始情况下,两个玩家都以随机选择的策略进行决策,即在任一节点,都以50%的概率分别选择过牌和加注
- 若第一轮中,玩家A的博弈过程为1→P1P→B1PB→BZ2,收益为uA(Z2)=−2。
- 计算玩家A针对信息集{1PB}选择“过牌”行动的遗憾值:
- 在当前策略下,行动序列h={PB}产生的概率:
πBσ(h)=1×0.5=0.5
由于在 {1PB}节点选择加注和过牌的概率均为50%,所以当前策略下,从行动序列h到达终结状态z1和z2的概率分别为:
πσ(h,z1)=0.5,πσ(h,z2)=0.5
又已知uA(z1)=−1,uA(z2)=−2,可知当前策略的虚拟价值:
vA(σ,h)=πBσ(h)×πσ(h,z1)×uA(z1)+πBσ(h)×πσ(h,z2)×uA(z2)=0.5×0.5×(−1)+0.5×0.5×(−2)=−0.75
- 若使用过牌策略,即σ{1PB}→P,此时玩家B促使行动序列h={P,B}达成的概率仍然为πBσ(h)=0.5,由于最终抵达的终结状态只有z1,所以πσ(h,z1)=1。
- 则最终选择过牌的虚拟价值为:
vA(σ{1PB}→P,h)=πBσ(h)×πσ(h,z1)×uA(z1)=0.5×1×(−1)=−0.5
- 在信息集{1PB}上采取“过牌”的遗憾值
r(I,P)=r(h,P)=vA(σ{1PB}→P,h)−vA(σ,h)=(−0.5)−(−0.75)=0.25
- 库恩扑克的博弈共有12个信息集,对应上图中的正方形和三角形
- 通过反复迭代计算,可以得到到达各个信息集应采取行动的概率:
- 对于玩家A而言,库恩扑克的混合策略纳什均衡的理论解如下(α∈[0,1/3]):
可见,算法得到的解与理论得到的解之间较为接近,验证了算法的有效性。
我的微信公众号名称:深度学习与先进智能决策
微信公众号ID:MultiAgent1024
公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!