博弈論(2)—納什均衡

如果想觀看相關視頻可以在西瓜視頻(賬號zidea)或者嗶哩嗶哩(賬號zidea2015)找到我發佈視頻解說,注意頭像和簡書使用頭像一致。

納什均衡

又稱爲非合作博弈均衡,是博弈論的一個重要術語,以約翰·納什命名。 在一個博弈過程中,無論對方的策略選擇如何,當事人一方都會選擇某個確定的策略,則該策略被稱作最佳應對。 如果兩個博弈的局中人的策略組合分別構成各自的最佳應對,那麼這個組合就被定義爲納什均衡。

在給出納什均衡解釋前,我們先得把一個概念說清楚最佳應對。

最佳應對

  • 假設 s 是局中人 1 的選擇的一個策略,t 是局中人 2 的選擇的一個策略;那麼 U_1(s,t) 是局中人 1 從這組決策(局勢)中獲得的收益,U_2(s,t) 是局中人 2 從這組決策中獲得的收益
  • 針對局中人 2 的策略 t,若局中人 1 用策略 s 產生的收益(效用函數的值)大於或等於任何其他策略,則稱策略 s 局中人 1 對局中人 2 的策略 t 的最佳應對U_1(s,t) \ge U_1(s^{\prime},t)

納什均衡

納什均衡是刻畫局勢,如果一個局勢下,每個局中人的策略都是相對其他局中人當前策略的最佳對應,則稱該局勢是一個納什均衡

佔優策略

如果一個局中人的某個策略對其他局中人的任何策略都是最佳對應,那麼這個策略就是該局中人的佔優策略

在納什均衡下,局中人沒有人會想要改變改變,因爲誰改變誰就可能在博弈中處於不利地位。

經典示例

首先我們來看一看在囚徒困境中納什均衡,對於囚徒困境的問題的納什均衡是雙方都坦白,屬於佔優策略

抗拒 坦白
抗拒 -1,-1 -10,0
坦白 0,-10 -3,-3
  • 當處於 (-1,-1) 局勢時,如果一方改變就可能從 -1 到 0
  • 而在 (-3,-3) 的局勢時,如果一方改變就可能從 -3 到 -10

其實不管局中人 2 是抗拒還是坦白,對於局中人的最佳應對都是坦白。從而可以看出納什均衡點並不一定是整體的最優解。有人可能會說那麼爲什麼不是對於兩個人都有利的(抗拒,抗拒)呢,這裏最佳應對是無論對手進行策略對自己都是最佳策略,在最後 maxmin 時候就更會了解爲什麼他們會做出坦白選擇,這是一個規避風險的策略。

<img src="./image_003/005.jpg">

舞蹈 足球
舞蹈 1,2 0,0
足球 0,0 2,1

這就是純策略納什均衡,混合策略下納什均衡,女生看舞蹈概率 p 看足球的概率就是 1 - p,男生看舞蹈概率 q 看足球的概率就是 1 - q

  • 丈夫選擇看足球策略的期望收益
    U_1(看足球,t) = 2 (1-p) + 0 \times p =2-2p
    丈夫選擇了看足球,當妻子以概率 1-p 也選擇了看足球會得到收益 2
  • 丈夫選擇看舞蹈策略的期望收益
    U_1(看舞蹈,t) = 0 \times (1-p) + 1 \times p = p

妻子隨機性的目的: 使丈夫無機可乘,不管丈夫選擇哪個策略,其期望收益均相同

2-2p = p \rightarrow p=\frac{2}{3}

  • 妻子選擇看足球策略的期望收益
    U_2(看足球,t) = 1 \times (1-q) + 0 \times q =1-p
    妻子選擇了看足球,當丈夫以概率 1-q 也選擇了看足球會得到收益 1
  • 妻子選擇看舞蹈策略的期望收益
    U_2(看舞蹈,t) = 2 \times q + 0 \times (1-q) = 2q

1-q = 2q \rightarrow q=\frac{1}{3}

當丈夫給出概率分佈不會讓妻子在看足球和看,關於
以我對丈夫瞭解他更喜歡看足球,

  • 2/3 的概率會選擇去看足球
  • 1/3 的概率會選擇去看舞蹈

混合策略下

  • 混合策略: 每個局中人以某個概率分佈在其策略集合中選擇策略
  • 混合策略下的納什均衡:
    • 定義和純策略納什均衡一致:基於最佳應對定義
    • 必要條件: 給定其他局中人的策略選擇概率分佈的情況下,當前局中人選擇任意一個(純)策略獲得的期望效用相等
剪刀 石頭
剪刀 0,0 -1,1 1,-1
石頭 1,-1 0,0 -1,1
-1,1 1,-1 0,0

局中人 1 的策略選擇分佈記爲 p = \{p_1,p_2,1-p_1-p_2\}, 局中人 2 的策略選擇分佈記爲q = \{q_1,q_2,1-q_1-q_2\}。假設局中人 1 的策略分佈不變,局中人 2 策略選擇的效用爲

  • 剪刀: 0 \times p_1 + (-1) \times p_2 + 1 \times (1 - p_1 - p_2) = 1 - p_1 - 2p_2

  • 石頭: 1 \times p_1 + 0 \times p_2 + (-1) \times (1 - p_1 - p_2) = 2p_1 - p_2 - 1

  • : -1 \times p_1 + 1 \times p_2 + 0 \times (1 - p_1 - p_2) = p_2 - p_1

  • 當前局中人選擇任意一個混合策略獲得的期望效用相等

\begin{aligned} 1 - p_1 - 2p_2 = 2p_1 - p_2 - 1\\ 1 - p_1 - 2p_2 = p_2 - p_1 \end{aligned}

p_1 = p_2 = \frac{1}{3}

剪刀—石頭—布的混合納什均衡態

  • 如果局中人沒有遵循 1/3 的隨機策略,誰就會失去有利位置
  • 每個玩家各以 1/3 的概率
  • 期望收益爲 0

納什定理

任何有限博弈(參與人與策略數目均爲有限)都至少存在一個納什均衡,這個均衡可能是純策略納什均衡(例如剪刀-石頭-布),也可能是混合策略均衡,納什均衡的多重性(例如性別之戰)

納什均衡的存在性與多重性

  • 佔優均衡:例如囚徒困境
  • 純策略納什均衡:性別之戰
  • 混合策略納什均衡
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章