讀書筆記: 博弈論導論 - 10 - 完整信息的動態博弈重複的博弈

原創

SNYang

2018-12-03 13:45

讀書筆記: 博弈論導論 - 10 - 完整信息的動態博弈重複的博弈

重複的博弈(Repeated Games)

本文是Game Theory An Introduction (by Steven Tadelis) 的學習筆記。

有限地重複的博弈

有限地重複的博弈(Finitely Repeated Games)
給定一個階段博弈$G$，一個有限地重複的博弈被記做$G(T, \delta)$，其中階段博弈$G$被連續進行了T次，$\delta$是公共折扣因子。

推論 10.1

如果有限重複博弈的階段博弈有一個唯一的納什博弈，
則這個有限重複博弈有一個唯一的子博弈精煉均衡。

現值(present value)
在一個無限隊列的收益$ { v_i }_{i=1}^{\infty}$中，玩家i的現值是
\[ v_i = \sum_{t=1}^{\infty} \delta^{t-1} v_i^t \\ where \\ 0 < \delta < 1 \]
平均收益(average payoff)
在一個無限隊列的收益$ { v_i }_{i=1}^{\infty}$中，玩家i的現值是
\[ \bar{v_i} = (1 - \delta) \sum_{t=1}^{\infty} \delta^{t-1} v_i^t \\ where \\ \delta < 1 \]
策略
在一個無限重複博弈中，$H_t$代表長度爲t的所有可能歷史的集合。
$h_t \in H_t$是一種歷史。
$H = \cup_{t=1}^{\infty} H_t$爲所有可能歷史的集合。
玩家i的一個純策略是一個映射$s_i: H \to S_i$，映射歷史到這個階段博弈的行動。
玩家i的一個行爲策略一個映射$\sigma_i: H \to \Delta S_i$，映射歷史到這個階段博弈的行動的隨機選擇。
子博弈精煉均衡(Sub-game-perfect equilibria)
一個純博弈組合$(s_1^*(\cdot), s_2^*(\cdot), \cdots, s_n^*(\cdot)), s_i: H \to S_i, \forall i \in N$是一個子博弈精煉均衡，
如果在每一個子博弈中，$(s_1^*(\cdot), s_2^*(\cdot), \cdots, s_n^*(\cdot))$的約束都是一個納什均衡。

推論 10.2

一個無限重複博弈$G(\delta), \delta < 1$，其階段博弈G的一個（靜態）納什均衡$(\sigma_1^*, \sigma_2^*, \cdots, \sigma_n^*)$。
定義這個重複博弈的每個玩家i的策略爲不依賴歷史的納什策略，$\sigma_i^*(h) = \sigma_i^*, \forall h \in H$，
則$(\sigma_1^*(h), \sigma_2^*(h), \cdots, \sigma_n^*(h))$爲這個重複博弈的一個子博弈精煉均衡。

不依賴歷史的無限重複博弈中階段博弈，其納什均衡就是重複博弈的子博弈精煉均衡。

推論 10.3

在一個無限重複博弈$G(\delta)$中，一個策略組合是一個子博弈精煉均衡，
當且僅當不存在玩家i在其單個歷史$h_{t-1}$中，可以從$s_i(h_{t-1})$偏離中獲得更多的收益。

凸組合(convex combination)
給定兩個矢量$v = (v_1, v_2, \cdots, v_n)$和$v’ = (v‘_1, v’_2, \cdots, v‘_n)$，
$\hat{v} = (\hat{v}_1, \hat{v}_2, \cdots, \hat{v}_n)$是一個凸組合(convex combination)，
如果$\hat{v} = \alpha v + (1 - \alpha) \hat{v}, \alpha \in [0, 1]$或者說$\hat{v}_i = \alpha v_i + (1 - \alpha) \hat{v}_i, \forall i \in [1, \cdots, n]$
從幾何上說凸組合位於兩個點之間線段上的任意點。
凸包(convex hull)
給定一組矢量$V = \{v^1, v^2, \cdots, v^k \}$，則V的凸包(convex hull)爲：
\[ CoHull(V) = \{ \\ v = \sum_{j=1}^k \alpha_j v^j \\ where \\ v \in \mathbb{R}^n, \\ \exists (\alpha_1, \cdots, \alpha_k) \in R_+^n, \\ \sum_{j=1}^k \alpha_j = 1\\ \} \]

幾何上的理解爲：
當n = 2（矢量的維度是2）時，
兩個點的凸包就是兩個點之間線段;
多個點的凸包就是多個點之間組成的平面;
當n > 2（矢量的維度 > 2）時，
兩個點的凸包就是兩個點之間線段;
多個點的凸包就是多個點之間組成的多維空間（維度爲$m \leq n \ \land \ m \leq k - 1$）。

可行收益(feasible payoffs)
一個博弈的所有收益的凸包爲可行收益的集合。

大衆定理(the folk theorem)

$G(\delta)$爲一個有限，同時選擇的完整信息博弈，
$v^* = (v_1^*, \cdots, v_n^*)$爲博弈G的一個納什均衡的收益，也是G的可行收益。
如果存在$v_i > v_i^*, \forall i \in N, \delta$爲一個足夠接近1的值，
則對於$G(\delta)$的無限重複博弈，存在一個子博弈精煉均衡，其平均收益接近於$v = (v_1, \cdots, v_n)$。

大衆定理由於是多人貢獻，也搞不清是那些人，而得名。

參照

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

讀書筆記: 博弈論導論 - 10 - 完整信息的動態博弈重複的博弈

讀書筆記: 博弈論導論 - 10 - 完整信息的動態博弈重複的博弈

重複的博弈(Repeated Games)

有限地重複的博弈

參照

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

再談23種設計模式（3）：行爲型模式（學習筆記）

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

在 C++ 項目中，通過源碼使用 PaddlePaddle 實現 OCR 功能

Excel Undo-Redo的編程問題

Excel DDE Commands

MySQL 數據庫死鎖排查

Java 響應式編程模式

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

讀書筆記: 博弈論導論 - 10 - 完整信息的動態博弈 重複的博弈

讀書筆記: 博弈論導論 - 10 - 完整信息的動態博弈 重複的博弈

重複的博弈(Repeated Games)

有限地重複的博弈

參照

讀書筆記: 博弈論導論 - 10 - 完整信息的動態博弈重複的博弈

讀書筆記: 博弈論導論 - 10 - 完整信息的動態博弈重複的博弈