現代的博弈論快速與人工智能進行結合,形成了以數據驅動的博弈論新的框架。博弈論與計算機科學的交叉領域非常多,有以下幾個方面:
- 理論計算機科學:算法博弈論
- 人工智能:多智能體系統、AI遊戲、人機交互、機器學習、廣告推薦等。
- 互聯網:互聯網經濟、共享經濟。
- 分佈式系統:區塊鏈。
人工智能與博弈論結合,形成了兩個主要研究方向:1. 博弈策略的求解;2. 博弈規則的設計。
博弈論提供了許多問題的數學模型。納什定理確定了博弈過程問題存在解。人工智能的方法可以用來求解均衡局面或者最優策略。
主要研究的問題就是:如何高效求解博弈參與者的策略以及博弈的均衡局勢。
其應用領域主要有:
- 大規模搜索空間的問題求解:圍棋。
- 非完美信息博弈問題求解:德州撲克。
- 網絡對戰遊戲智能:Dota、星球大戰。
- 動態博弈的均衡解:廠家競爭、信息安全。
遺憾最小化算法(Regret Minimization):
我們對遺憾最優化算法(RM)中符號做若干定義:
- 假設一共有個玩家。玩家所採用的策略表示爲。
- 對於每個信息集,是在動作集上的概率分佈函數。玩家的策略空間用表示。
- 一個策略組包含所有玩家策略,用,,,。
- 表示中除了之外的策略(即除去玩家所採用的策略)。
- 在博弈對決中,不同玩家在不同時刻會採取相應策略以及行動。策略下對應的動作序列發生概率表示爲。於是,,這裏表示玩家使用策略促使行動序列發生的概率。除玩家以外,其他玩家通過各自策略促使行動序列發生的概率可表示爲:。
- 對於每個玩家,表示玩家的收益函數,即在到達終止序列集合中某個終止序列時,玩家所得到的收益。
- 玩家在給定策略下所能得到的期望收益可如下計算:。
最佳反應策略與納什均衡
我們來看一下遺憾最小化算法下的最佳反應策略和納什均衡。
- 玩家對於所有玩家的策略組的最佳反應策略滿足如下條件:
即玩家採用其它策略獲得的收益小於採用最佳策略所能獲得的收益。(這裏其它玩家策略保持不變。)
在策略組中,如果每個玩家的策略相對於其他玩家的策略而言都是最佳反應策略,那麼策略組就是一個納什均衡(Nash equilibrium)策略。
納什均衡:策略組,,,是納什均衡當且僅當對每個玩家,滿足如下條件:
-納什均衡與平均遺憾值
-
-納什均衡:
- 對於給定的正實數,策略組是-納什均衡當且僅當對於每個玩家,滿足如下條件:
- 對於給定的正實數,策略組是-納什均衡當且僅當對於每個玩家,滿足如下條件:
-
平均遺憾值(average overall regret):假設博弈能夠重複地進行(如圍棋等),令第次博弈時的策略組爲,若博弈已經進行了次,則這次博弈對於玩家的平均遺憾值定義爲:
策略選擇
- 遺憾最小化算法是一種根據過去博弈中的遺憾程度來決定將來動作選擇的方法
- 在博弈中,玩家在第輪次(每一輪表示一次博弈完成)採取策略的遺憾值定義如下(累加遺憾):
-
通常遺憾值爲負數的策略被認定爲不能提升下一時刻收益,所以這裏考慮的遺憾值均爲正數或0;
-
計算得到玩家在第輪次採取策略的遺憾值後,在第輪次玩家選擇策略的概率如下(悔值越大、越選擇,即亡羊補牢):
Rock-Paper-Scissors,RPS 例子
-
假設兩個玩家和進行石頭-剪刀-布(Rock-Paper-Scissors,RPS)的遊戲,獲勝玩家收益爲1分,失敗玩家收益爲-1分,平局則兩個玩家收益均爲零分。
-
第一局時,若玩家出石頭(),玩家出布(),則此時玩家的收益,玩家的收益爲。
-
對於玩家來說,在玩家出布()這個策略情況下,如果玩家選擇出布()或者剪刀(),則玩家對應的收益值或者。
-
所以第一局之後,玩家沒有出布的遺憾值爲:
,
沒有出剪刀的遺憾值爲:
。
-
所以在第二局中,玩家選擇石頭、剪刀和布這三個策略的概率分別爲0、2/3、1/3。因此,玩家趨向於在第二局中選擇出剪刀這個策略。
-
在第一輪中,玩家選擇石頭和玩家選擇布、在第二局中玩家選擇剪刀和玩家選擇石頭情況下,則玩家每一輪遺憾值及第二輪後的累加遺憾取值如下:
- 從上表可知,在第三局時,玩家選擇石頭、剪刀和布的概率分別爲1/6、2/6、3/6
- 在實際使用中,可以通過多次模擬迭代累加遺憾值找到每個玩家在每一輪次的最優策略。
- 但是當博弈狀態空間呈指數增長時,對一個規模巨大的博弈樹無法採用最小遺憾算法。
我的微信公衆號名稱:深度學習與先進智能決策
微信公衆號ID:MultiAgent1024
公衆號介紹:主要研究分享深度學習、機器博弈、強化學習等相關內容!期待您的關注,歡迎一起學習交流進步!