經典的囚徒困境

原創

2020-02-21 16:40

經典的囚徒困境

1950年，由就職於蘭德公司的梅里爾·弗勒德（Merrill Flood）和梅爾文·德雷希爾（Melvin Dresher）擬定出相關困境的理論，後來由顧問艾伯特·塔克（Albert Tucker）以囚徒方式闡述，並命名爲“囚徒困境”。經典的囚徒困境如下：

警方逮捕甲、乙兩名嫌疑犯，但沒有足夠證據指控二人入罪。於是警方分開囚禁嫌疑犯，分別和二人見面，並向雙方提供以下相同的選擇：

* 若一人認罪並作證檢控對方（相關術語稱“背叛”對方），而對方保持沉默，此人將即時獲釋，沉默者將判監10年。

* 若二人都保持沉默（相關術語稱互相“合作”），則二人同樣判監半年。

* 若二人都互相檢舉（互相“背叛”），則二人同樣判監2年。

用表格概述如下：

解說

如同博弈論的其他例證，囚徒困境假定每個參與者（即“囚徒”）都是利己的，即都尋求最大自身利益，而不關心另一參與者的利益。參與者某一策略所得利益，如果在任何情況下都比其他策略要低的話，此策略稱爲“嚴格劣勢”，理性的參與者絕不會選擇。另外，沒有任何其他力量干預個人決策，參與者可完全按照自己意願選擇策略。

囚徒到底應該選擇哪一項策略，才能將自己個人的刑期縮至最短？兩名囚徒由於隔絕監禁，並不知道對方選擇；而即使他們能交談，還是未必能夠盡信對方不會反口。就個人的理性選擇而言，檢舉背叛對方所得刑期，總比沉默要來得低。試設想困境中兩名理性囚徒會如何作出選擇：

* 若對方沉默、背叛會讓我獲釋，所以會選擇背叛。

* 若對方背叛指控我，我也要指控對方纔能得到較低的刑期，所以也是會選擇背叛。

二人面對的情況一樣，所以二人的理性思考都會得出相同的結論——選擇背叛。背叛是兩種策略之中的支配性策略。因此，這場博弈中唯一可能達到的納什均衡，就是雙方參與者都背叛對方，結果二人同樣服刑2年。

這場博弈的納什均衡，顯然不是顧及團體利益的帕累托最優解決方案。以全體利益而言，如果兩個參與者都合作保持沉默，兩人都只會被判刑半年，總體利益更高，結果也比兩人背叛對方、判刑2年的情況較佳。但根據以上假設，二人均爲理性的個人，且只追求自己個人利益。均衡狀況會是兩個囚徒都選擇背叛，結果二人判決均比合作爲高，總體利益較合作爲低。這就是“困境”所在。例子漂亮地證明了：非零和博弈中，帕累托最優和納什均衡是相沖突的。

wangya216

發佈了37 篇原創文章 · 獲贊 0 · 訪問量 10萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

經典的囚徒困境

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

全面系統的AI學習路徑，幫助普通人也能玩轉AI

HTML 00 Tutorial

從零開始：使用 Playwright 腳本錄製實現自動化測試

uni-app實現上拉加載

vue3編譯優化之“靜態提升”

又是一個月-20240513

flask 如何保證返回json有序

cuda中的關鍵字之——“>>”

fedora core 10 英文環境不能激活fcitx的解決方法！！

CUDA的庫和VC的庫有衝突

使用gparted和acronis進行Linux分區和NTFS分區無損調整（跟我的做法一樣）

linux FC10 FC 10 Fedora 10 static ip 無法訪問外網 DNS Generated by NetworkManager

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結