博弈論(2)—納什均衡

如果想觀看相關視頻可以在西瓜視頻(賬號zidea)或者嗶哩嗶哩(賬號zidea2015)找到我發佈視頻解說，注意頭像和簡書使用頭像一致。

納什均衡

又稱爲非合作博弈均衡，是博弈論的一個重要術語，以約翰·納什命名。在一個博弈過程中，無論對方的策略選擇如何，當事人一方都會選擇某個確定的策略，則該策略被稱作最佳應對。如果兩個博弈的局中人的策略組合分別構成各自的最佳應對，那麼這個組合就被定義爲納什均衡。

在給出納什均衡解釋前，我們先得把一個概念說清楚最佳應對。

最佳應對

假設 s 是局中人 1 的選擇的一個策略，t 是局中人 2 的選擇的一個策略；那麼 $U_1(s,t)$ 是局中人 1 從這組決策(局勢)中獲得的收益， $U_2(s,t)$ 是局中人 2 從這組決策中獲得的收益
針對局中人 2 的策略 t，若局中人 1 用策略 s 產生的收益(效用函數的值)大於或等於任何其他策略，則稱策略 s 局中人 1 對局中人 2 的策略 t 的最佳應對。 $U_1(s,t) \ge U_1(s^{\prime},t)$

納什均衡

納什均衡是刻畫局勢，如果一個局勢下，每個局中人的策略都是相對其他局中人當前策略的最佳對應，則稱該局勢是一個納什均衡

佔優策略

如果一個局中人的某個策略對其他局中人的任何策略都是最佳對應，那麼這個策略就是該局中人的佔優策略

在納什均衡下，局中人沒有人會想要改變改變，因爲誰改變誰就可能在博弈中處於不利地位。

經典示例

首先我們來看一看在囚徒困境中納什均衡，對於囚徒困境的問題的納什均衡是雙方都坦白，屬於佔優策略

	抗拒	坦白
抗拒	-1,-1	-10,0
坦白	0,-10	-3,-3

當處於 $(-1,-1)$ 局勢時，如果一方改變就可能從 -1 到 0
而在 $(-3,-3)$ 的局勢時，如果一方改變就可能從 -3 到 -10

其實不管局中人 2 是抗拒還是坦白，對於局中人的最佳應對都是坦白。從而可以看出納什均衡點並不一定是整體的最優解。有人可能會說那麼爲什麼不是對於兩個人都有利的(抗拒，抗拒)呢，這裏最佳應對是無論對手進行策略對自己都是最佳策略，在最後 maxmin 時候就更會了解爲什麼他們會做出坦白選擇，這是一個規避風險的策略。

	舞蹈	足球
舞蹈	1,2	0,0
足球	0,0	2,1

這就是純策略納什均衡，混合策略下納什均衡，女生看舞蹈概率 p 看足球的概率就是 1 - p，男生看舞蹈概率 q 看足球的概率就是 1 - q

丈夫選擇看足球策略的期望收益
$U_1(看足球,t) = 2 (1-p) + 0 \times p =2-2p$
丈夫選擇了看足球，當妻子以概率 1-p 也選擇了看足球會得到收益 2
丈夫選擇看舞蹈策略的期望收益
$U_1(看舞蹈,t) = 0 \times (1-p) + 1 \times p = p$

妻子隨機性的目的: 使丈夫無機可乘，不管丈夫選擇哪個策略，其期望收益均相同

$2-2p = p \rightarrow p=\frac{2}{3}$

妻子選擇看足球策略的期望收益
$U_2(看足球,t) = 1 \times (1-q) + 0 \times q =1-p$
妻子選擇了看足球，當丈夫以概率 1-q 也選擇了看足球會得到收益 1
妻子選擇看舞蹈策略的期望收益
$U_2(看舞蹈,t) = 2 \times q + 0 \times (1-q) = 2q$

$1-q = 2q \rightarrow q=\frac{1}{3}$

當丈夫給出概率分佈不會讓妻子在看足球和看，關於
以我對丈夫瞭解他更喜歡看足球，

2/3 的概率會選擇去看足球
1/3 的概率會選擇去看舞蹈

混合策略下

混合策略: 每個局中人以某個概率分佈在其策略集合中選擇策略
混合策略下的納什均衡:
- 定義和純策略納什均衡一致：基於最佳應對定義
- 必要條件: 給定其他局中人的策略選擇概率分佈的情況下，當前局中人選擇任意一個(純)策略獲得的期望效用相等

	剪刀	石頭	布
剪刀	0,0	-1,1	1,-1
石頭	1,-1	0,0	-1,1
布	-1,1	1,-1	0,0

局中人 1 的策略選擇分佈記爲 $p = \{p_1,p_2,1-p_1-p_2\}$ , 局中人 2 的策略選擇分佈記爲 $q = \{q_1,q_2,1-q_1-q_2\}$ 。假設局中人 1 的策略分佈不變，局中人 2 策略選擇的效用爲

剪刀: $0 \times p_1 + (-1) \times p_2 + 1 \times (1 - p_1 - p_2) = 1 - p_1 - 2p_2$
石頭: $1 \times p_1 + 0 \times p_2 + (-1) \times (1 - p_1 - p_2) = 2p_1 - p_2 - 1$
布: $-1 \times p_1 + 1 \times p_2 + 0 \times (1 - p_1 - p_2) = p_2 - p_1$
當前局中人選擇任意一個混合策略獲得的期望效用相等

$\begin{aligned} 1 - p_1 - 2p_2 = 2p_1 - p_2 - 1\\ 1 - p_1 - 2p_2 = p_2 - p_1 \end{aligned}$

$p_1 = p_2 = \frac{1}{3}$

剪刀—石頭—布的混合納什均衡態

如果局中人沒有遵循 1/3 的隨機策略，誰就會失去有利位置
每個玩家各以 1/3 的概率
期望收益爲 0

納什定理

任何有限博弈(參與人與策略數目均爲有限)都至少存在一個納什均衡，這個均衡可能是純策略納什均衡(例如剪刀-石頭-布)，也可能是混合策略均衡，納什均衡的多重性(例如性別之戰)

納什均衡的存在性與多重性

佔優均衡:例如囚徒困境
純策略納什均衡:性別之戰
混合策略納什均衡

博弈論(2)—納什均衡

納什均衡

最佳應對

納什均衡

佔優策略

經典示例

混合策略下

納什定理

納什均衡的存在性與多重性

瀏覽器端的機器學習 tensorflowjs(6) 訓練模型

瀏覽器端的機器學習 tensorflowjs(5) 數據處理

瀏覽器端的機器學習 tensorflowjs(3) 加載 2D 數據

瀏覽器端的機器學習 tensorflowjs(2) 擬合2D數據

通過遺傳算法來優化特徵工程

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結