博弈規則的設計
博弈策略求解是博弈問題中的一個重要內容,另外一個重要的內容是博弈規則的設計:
也就是說,假設博弈的參與者都是足夠理性的,如何設計一個博弈規則能確保公正性或者達到設計者的最大利益。主要的難點是:規則複雜,計算量大。
主要應用於:
- 拍賣競價:互聯網廣告投放、車牌競價
- 供需匹配:污染權、學校錄取
- 公正選舉:選舉制度、表決制度、議席分配
G-S算法(Gale-Shapley)
在規則設計裏面有不同的算法,比方說有GS算法:
- 在生活中,人們通常會碰到與資源匹配相關的決策問題(如求職就業、報考錄取等),這些需要雙向選擇的情況被稱爲是雙邊匹配問題。在雙邊匹配問題中,需要雙方互相滿足對方的需求才會達成匹配。
- 匹配的穩定是指沒有任何人能從偏離穩定狀態中獲益。如果將匹配問題看做是一種合作博弈的話,穩定狀態解就是納什均衡解。
- 1962年,美國數學家大衛·蓋爾和博弈論學家沙普利提出了針對雙邊穩定匹配問題的解決算法,並將其應用於穩定婚姻問題的求解。
- 穩定婚姻問題(stable marriage problem)是指在給定成員偏好的條件下,分兩組成員尋找穩定匹配。由於這種匹配並不是簡單地價高者得,所以匹配解法應考慮雙方意願。
- 穩定婚姻問題的穩定解是指不存在未達成匹配的兩個人都更傾向於選擇對方勝過自己當前的匹配對象。
穩定婚姻問題
- 假設有相同數量的單身男性和單身女性,其構成男性集合和女性集合。
- 單身男性向最喜歡的女性表白
- 所有收到表白的女性從向其表白男性中選擇最喜歡的男性,暫時匹配
- 未匹配的男性繼續向沒有拒絕過他的女性表白。收到表白的女性如果沒有完成匹配,則從這一批表白者中選擇最喜歡男性。即使收到表白的女性已經完成匹配,但是如果她認爲有她更喜歡的男性,則可以拒絕之前的匹配者,重新匹配。
- 如此循環迭代,直到所有人都成功匹配爲止
- 這一過程中,男生使用貪心策略告白,而女生具有選擇權,一旦出現不穩定的匹配者,即替換當前匹配者。
最大交易圈算法(Top-Trading Cycle algorithm)
- 匹配問題中,還有一類交換不可分的的標的物的匹配問題,被稱爲單邊匹配問題,如遠古時期以物易物、或者宿舍的牀位分配。
- 1974年,沙普利和斯夫提出了針對單邊匹配問題的穩定匹配算法:最大交易圈算法(TTC),算法過程如下:
- 首先每個交易者連接一條指向他最喜歡的標的物的邊,並從每一個標的物連接到其佔有者或者是具有最高優先權的交易者。
- 此時形成一張有向圖,且比存在交易圈,對於交易圈中的交易者,將每人指向節點所代表的標的物賦予其,同時交易者放棄原先佔有的標的物,佔有者和匹配成功的標的物離開匹配市場
- 接着從剩餘的交易者和標的物之間重複進行交易圈匹配,直到無法形成交易圈,算法停止。
室友匹配問題
參考
- 非完全信息博弈中的虛擬遺憾最小化(CFR)算法(附實現代碼)
- 吳飛,《人工智能導論:模型與方法》,高等教育出版社出版(擬2020年2月出版)
- 人工智能:模型與算法
- 關於德州撲克AI中Counterfactual Regret Minimization的介紹
我的微信公衆號名稱:深度學習與先進智能決策
微信公衆號ID:MultiAgent1024
公衆號介紹:主要研究分享深度學習、機器博弈、強化學習等相關內容!期待您的關注,歡迎一起學習交流進步!