如果想觀看相關視頻可以在西瓜視頻(賬號zidea)或者嗶哩嗶哩(賬號zidea2015)找到我發佈視頻解說,注意頭像和簡書使用頭像一致。
博弈論
今天要說的博弈論是行爲主義的第三階段,在博弈論中,行爲主義的智能體是人的本身,關於智能體這一點與強化學習有所不同。博弈論中智能體要優於之前強化學習中的智能體,更接近人類
在行爲主義我們主要研究智能體與環境交互,智能體根據環境反饋來更新自己進行學習。
什麼是博弈
博弈的定義
在生活中,我們或多或少都聽過博弈,那麼能不能回答一下你對博弈認識呢?好我們先從字面上理解一下博弈,其中的博,大家可能會聯想到賭博,而弈自然會想到對弈。
- 賭博
- 棋類遊戲
- 競技遊戲
- 運動
其實今天我們討論的博弈是獨立於運氣、技術的一種策略。很多情況下,更多時候靠策略取勝而不是技術,有的時候大家技術不相上下,難分伯仲時候策略就是稱爲主導比賽的主要原因。例如籃球中的擋拆戰術就是屬於博弈,或者比賽要結束時雙方比分相差不多時,落後方在比賽最後關頭,通通過犯規犯規戰術來贏得一次進攻機會來取得比賽最後勝利。策略是爲了獲勝所需要的一種智力技巧。技術都差不多,大家都是考慮策略來贏得比賽。
策略博弈
我們對照強化學習中策略,在強化學習中策略是從狀態到行爲映射函數,而在博弈中策略是一種確定性策略,策略本質上涉及與他人的相互影響。其他人在同一時間、對同一情形也在進行類似思考。
博弈論就是分析這樣的交互式決策過程,是關於相互作用情況下的理性行爲的科學,而強化學習是時序上決策過程。
- 這裏交互式決策,不同於強化學習中的時序決策
理性行爲
明白自己的目的和偏好,同時瞭解自己行動的限制和約束,以精心策劃的方式選擇自己的最佳行爲,可以理解自私人,參與博弈的人都是理性自私的人,其實我們都不是理性自私人,這樣假設是博弈論非常重要前提,如果對方不是理性的自私人,如果對手是大公無私,直接推出比賽讓出獎勵,那麼也就是談不上什麼博弈了,只有這樣假設我們才能展開下面研究。
理論是在公理上推出的,沒有得到驗證,得到驗證的理論就變成科學
博弈論對理性行爲爲賦予的新的含義,與其他同樣具有理性的決策者進行相互作用(發籃球)
在博弈中真的總能獲勝嗎? 有必勝策略嗎?
估計答案你也已經猜到了,沒有必勝策略,使用合適的策略可以讓我們贏得比賽概率更大而已。例如玩剪刀、石頭和布,這就是博弈,沒有必勝策略。
博弈策略的分類
- 靜態博弈和動態博弈
- 靜態博弈:
- 動態博弈:下棋
- 競爭博弈和合作博弈
- 競爭博弈:炒股
- 合作博弈:結盟
- 完全信息博弈和不完全信息博弈
- 完全信息博弈: 下棋
- 不完全信息博弈: 麻將
博弈的要素
一般的博弈問題由三個要素所構成:即局中人(players)又稱當事人、參與者、策略等等的集合,策略(strategies)集合以及每一對局中人所做的選擇和贏得(payoffs)集合。 其中所謂贏得是指如果一個特定的策略關係被選擇,每一局中人所得到的效用。 所有的博弈問題都會遇到這三個要素
局中人(Players)
什麼樣的人是博弈中局中人,簡單理解爲參與博弈的人,但是需要滿足以下幾個條件,
- 在博弈中不存在僥倖心理
- 不可能利用其他局中人的失誤來擴展自己的收益
- 以最大化個人利益爲目的
策略集合(Strategies)
策略集合有點像強化學習集合,也就是局中人的行爲的集合,每一個策略行爲方案。在田忌賽馬中,田忌賽馬策略集合{上中下、上下中、下中上、下上中、中上下、中下上}
效用函數(Payoff)
局勢
也就是局中人的策略組合是一個局勢,在一個局勢就可以判斷出誰贏誰loss
- 對於每一個參與的博弈的局中人都有一個效應函數
- 通常用 U 字母表示效用函數
- 效用函數在靜態博弈中一般是局勢的函數
- 在動態博弈中效用函數可能是局勢的函數,也可能還有其他因素,比如時間
- 每個局中人的目的都是最大化自己的效用函數
經典示例
通過下面幾個具有代表性經典博弈論小示例給大家介紹什麼是博弈中三要素,局中人、策略集合和效用函數
囚徒困境
囚徒困境是博弈論中經典問題,有兩個囚徒有隱瞞未報的偷盜案件,在審問過程中每個囚徒可以選擇抗拒不承認或者坦白承認。局勢就是兩個囚徒給出自己策略算一個局勢,那麼根據排列組合有(抗拒,抗拒)、(坦白,抗拒)、(抗拒,坦白)和(坦白,坦白) 如果兩個人都抗拒不承認每個會判 1 年,如果兩個人都坦白每個人會被判 3 年,如果一方坦白另一方抗拒,抗拒判 10 年而坦白會被釋放
- 局中人
- 兩個囚徒
- 策略
- 抗拒
- 坦白
- 效用函數矩陣
抗拒 | 坦白 | |
---|---|---|
抗拒 | -1,-1 | -10,0 |
坦白 | 0,-10 | -3,-3 |
性別之戰
夫妻兩個人看電視,妻子喜歡看舞蹈(換成韓劇也行),而丈夫喜歡看足球。如何兩個達成協議都看舞蹈或者足球,兩個人都會有回報,而沒有達成一致則雙方收益都爲 0。
- 局中人
- 夫妻雙方
- 策略
- 看足球,看舞蹈
- 納什均衡
- 夫妻雙方都同意看足球或者舞蹈
- 納什均衡解多個納什均衡解
舞蹈 | 足球 | |
---|---|---|
舞蹈 | 1,2 | 0,0 |
足球 | 0,0 | 2,1 |
- 納什均衡:夫妻同意看舞蹈或者都看足球
剪刀、石頭和布(Rock-paper-scissors)
-
局中人
- 兩個玩家
-
策略
- 石頭、剪刀和布
效用函數
不存在納什均衡解
剪刀 | 石頭 | 布 | |
---|---|---|---|
剪刀 | 0,0 | -1,1 | 1,-1 |
石頭 | 1,-1 | 0,0 | -1,1 |
布 | -1,1 | 1,-1 | 0,0 |