如果想觀看相關視頻可以在西瓜視頻(賬號zidea)或者嗶哩嗶哩(賬號zidea2015)找到我發佈視頻解說,注意頭像和簡書使用頭像一致。
納什均衡
又稱爲非合作博弈均衡,是博弈論的一個重要術語,以約翰·納什命名。 在一個博弈過程中,無論對方的策略選擇如何,當事人一方都會選擇某個確定的策略,則該策略被稱作最佳應對。 如果兩個博弈的局中人的策略組合分別構成各自的最佳應對,那麼這個組合就被定義爲納什均衡。
在給出納什均衡解釋前,我們先得把一個概念說清楚最佳應對。
最佳應對
- 假設 s 是局中人 1 的選擇的一個策略,t 是局中人 2 的選擇的一個策略;那麼 是局中人 1 從這組決策(局勢)中獲得的收益, 是局中人 2 從這組決策中獲得的收益
- 針對局中人 2 的策略 t,若局中人 1 用策略 s 產生的收益(效用函數的值)大於或等於任何其他策略,則稱策略 s 局中人 1 對局中人 2 的策略 t 的最佳應對。
納什均衡
納什均衡是刻畫局勢,如果一個局勢下,每個局中人的策略都是相對其他局中人當前策略的最佳對應,則稱該局勢是一個納什均衡
佔優策略
如果一個局中人的某個策略對其他局中人的任何策略都是最佳對應,那麼這個策略就是該局中人的佔優策略
在納什均衡下,局中人沒有人會想要改變改變,因爲誰改變誰就可能在博弈中處於不利地位。
經典示例
首先我們來看一看在囚徒困境中納什均衡,對於囚徒困境的問題的納什均衡是雙方都坦白,屬於佔優策略
抗拒 | 坦白 | |
---|---|---|
抗拒 | -1,-1 | -10,0 |
坦白 | 0,-10 | -3,-3 |
- 當處於 局勢時,如果一方改變就可能從 -1 到 0
- 而在 的局勢時,如果一方改變就可能從 -3 到 -10
其實不管局中人 2 是抗拒還是坦白,對於局中人的最佳應對都是坦白。從而可以看出納什均衡點並不一定是整體的最優解。有人可能會說那麼爲什麼不是對於兩個人都有利的(抗拒,抗拒)呢,這裏最佳應對是無論對手進行策略對自己都是最佳策略,在最後 maxmin 時候就更會了解爲什麼他們會做出坦白選擇,這是一個規避風險的策略。
<img src="./image_003/005.jpg">
舞蹈 | 足球 | |
---|---|---|
舞蹈 | 1,2 | 0,0 |
足球 | 0,0 | 2,1 |
這就是純策略納什均衡,混合策略下納什均衡,女生看舞蹈概率 p 看足球的概率就是 1 - p,男生看舞蹈概率 q 看足球的概率就是 1 - q
- 丈夫選擇看足球策略的期望收益
丈夫選擇了看足球,當妻子以概率 1-p 也選擇了看足球會得到收益 2 - 丈夫選擇看舞蹈策略的期望收益
妻子隨機性的目的: 使丈夫無機可乘,不管丈夫選擇哪個策略,其期望收益均相同
- 妻子選擇看足球策略的期望收益
妻子選擇了看足球,當丈夫以概率 1-q 也選擇了看足球會得到收益 1 - 妻子選擇看舞蹈策略的期望收益
當丈夫給出概率分佈不會讓妻子在看足球和看,關於
以我對丈夫瞭解他更喜歡看足球,
- 2/3 的概率會選擇去看足球
- 1/3 的概率會選擇去看舞蹈
混合策略下
- 混合策略: 每個局中人以某個概率分佈在其策略集合中選擇策略
-
混合策略下的納什均衡:
- 定義和純策略納什均衡一致:基於最佳應對定義
- 必要條件: 給定其他局中人的策略選擇概率分佈的情況下,當前局中人選擇任意一個(純)策略獲得的期望效用相等
剪刀 | 石頭 | 布 | |
---|---|---|---|
剪刀 | 0,0 | -1,1 | 1,-1 |
石頭 | 1,-1 | 0,0 | -1,1 |
布 | -1,1 | 1,-1 | 0,0 |
局中人 1 的策略選擇分佈記爲 , 局中人 2 的策略選擇分佈記爲。假設局中人 1 的策略分佈不變,局中人 2 策略選擇的效用爲
剪刀:
石頭:
布:
當前局中人選擇任意一個混合策略獲得的期望效用相等
剪刀—石頭—布的混合納什均衡態
- 如果局中人沒有遵循 1/3 的隨機策略,誰就會失去有利位置
- 每個玩家各以 1/3 的概率
- 期望收益爲 0
納什定理
任何有限博弈(參與人與策略數目均爲有限)都至少存在一個納什均衡,這個均衡可能是純策略納什均衡(例如剪刀-石頭-布),也可能是混合策略均衡,納什均衡的多重性(例如性別之戰)
納什均衡的存在性與多重性
- 佔優均衡:例如囚徒困境
- 純策略納什均衡:性別之戰
- 混合策略納什均衡