《博弈論》筆記

一、博弈論不是”三十六計“

任何一本講博弈論的書都會先告訴你博弈論有多重要,不過我想咱們應該先面對現實。現實是博弈論是個奇怪的話題。

人們非常願意瞭解博弈論,每個商學院都要給MBA開博弈論課程,幾乎每一本流行的講博弈論的英文書都有中文版,我們經常在媒體看到“博弈”這個詞,但是,人們很少真正使用博弈論。你不太容易聽到有人說,這件事根據博弈論應該怎麼辦。

爲什麼會這樣?以我之見,不是博弈論沒用,而是人們對博弈論的用法有誤解。要想知道博弈論有什麼用,我們先來思考一個明擺着、但是從來不被提起的問題。

如果博弈論是講謀略的,那像“三十六計”這樣傳統的計謀,跟博弈論是什麼關係?博弈論是科學版的三十六計嗎?

0x1:計謀和戰略

傳統中國文化給世界人民的印象,中國是個武術之國;而在我們中國人心目中,中國更是計謀之國。我們有《三國演義》《三十六計》和各種兵法,像諸葛亮、吳用、劉伯溫這些軍師形象特別深入人心。但是你注意到沒有,“計謀”這東西,好像都是民間在談,計謀不是嚴肅的學術課題。

戰略,好像很高大上。計謀,好像上不了檯面。這是爲啥呢?

因爲計謀不值得被認真對待。

咱們看看《三十六計》裏的計謀,

  • 瞞天過海
  • 聲東擊西
  • 暗度陳倉
  • 笑裏藏刀
  • 欲擒故縱
  • 偷樑換柱
  • 上屋抽梯
  • 美人計
  • 空城計
  • 反間計
  • 等等

這些“計”,本質上都是騙術。自己要做A,就讓對手以爲自己要做B;不希望對手做C,就吸引對手去做D。《三十六計》在很大程度上是一本陰謀詭計之書。

詭計有三個問題,一個比一個嚴重。

  • 首先,詭計都有巨大的風險。詭計要想成功,你不但必須嚴密封鎖信息,而且還得假設對手是比較愚蠢的。

比如說“空城計”。司馬懿領兵來打,諸葛亮手裏沒有兵,自己故意在城頭撫琴,做出一副胸有成竹的樣子,讓司馬懿以爲城內有兵,然後就真的被嚇跑了。我們想想這可能嗎?最起碼的一點,司馬懿作爲一個軍事指揮官,帶領一支軍隊去攻打一個城,居然事先對這座城的兵力部署沒有絲毫瞭解嗎?你的情報系統呢?反過來說,城裏這麼多老百姓,諸葛亮就一點都不擔心走漏消息嗎?

真實歷史中諸葛亮並沒有對司馬懿使用過小說裏那個空城計。這個操作風險太大了。諸葛亮不但要假設信息被完全封鎖,還得假設司馬懿知道自己是個謹慎的人,而且還得假設司馬懿不知道自己已經知道司馬懿知道自己是個謹慎的人,而且司馬懿居然連騷擾一下都不敢就跑了。

  • 詭計的第二個問題是不能長期使用。

騙人一次也許真能成功。有些賣假貨的人爲了應付檢查,不會只賣假貨,讓真貨和假貨混合,這不就是“瞞天過海”嗎?這個手段的確比生硬的欺騙高級,但仍然是欺騙,而欺騙是不能長久的。

當然《三十六計》中也有很多計謀不是騙術,比如圍魏救趙、遠交近攻、借刀殺人、趁火打劫等等。

  • 但即便是這樣的計謀,也跟騙術一樣,還有一個更大的問題,那就是它們說的都是“零和”遊戲。

零和的意思就是我要想贏你就得輸,我想要得到什麼你就得失去什麼,咱倆的得失之和等於零。真實世界中,除了戰爭,很少有這樣你死我活的局面。商業競爭也好,平時人和人相處也好,一般都不是零和遊戲。兩個集團想要長期共存,就必須得找到一個能夠雙贏的方法,而不是互相使用計謀。

計謀的故事聽多了容易產生幻覺。我們看各種演義故事,因爲過分相信計謀的作用,給人感覺好像實力都不重要了。我們動不動就要以弱勝強,要打“聰明仗”,好像以弱勝強是個普遍情況、四兩撥千斤是個常規操作一樣。

魯迅先生說《三國演義》“狀諸葛之多智而近妖”。其實小說裏的諸葛亮之所以那麼算無遺策,是被對手的愚蠢襯托出來的。計謀的本質,是一廂情願。

中國也許是個計謀大國,但真不是戰略強國。考察歷史,中國對外戰略大約是失敗的多,成功的少;被意識形態裹挾的多,頭腦清醒的少。北宋和遼國因爲澶淵之盟長期和平共處,遼國已經幾乎被漢化、成了大宋的一個很好的屏障的局面下,看到金國崛起,大宋居然想對遼國來個“趁火打劫”,結果金滅了遼馬上就攻打大宋。等北宋變成南宋,好不容易又跟金國和平共處了一段時間,一看蒙古崛起,又對金國來了個趁火打劫。我相信大宋必定有不少明白人,但是一廂情願的人顯然更多,竟然讓同樣的錯誤犯了兩次!

計謀要是太多,愚蠢的人就不夠用了。博弈論研究的是”理性人“之間的博弈。

0x2:什麼是理性

因爲現在流行“行爲經濟學”,人們愛說人是非理性的,連有的學經濟學的人都不敢理直氣壯地說經濟學假設人是理性的了。但是地道的經濟學必須得假設人是理性的,如果人不是理性的,所有數學模型、包括供求關係之類的基本結論就都灰飛煙滅了。

人的確經常表現得不理性,但經濟學的理性人假設並不算錯。這是因爲人在做熟悉的事情、重要的事情、涉及到錢的事情的時候,通常是相當理性的。

而這些事情恰恰是經濟學、也是博弈論的研究對象。博弈論假設人是理性的,表現爲三個要求。

  • 第一,你得知道你想要什麼,並且對你想要的東西有一個明確的排序。
  • 第二,你的行動是在一定的規則之下,爭取得到你想要的東西。
  • 第三,你知道對手也是這麼想的,而且對手也知道這些規則。

這三個要求都很簡單,但是我們得承認,有些人在有些時候真做不到。比如說之前新聞中的“高鐵霸座男”,他是個博士,我覺得你要是問他是個人的形象和聲譽重要還是一個座位重要,他會更想要形象和聲譽,可是在高鐵上那一刻,他的情緒戰勝了理智。人有時候會被某種情緒劫持,這種情況不是博弈論的研究內容。

但如果一個人長期這麼做事,其中可能就有理性的成分。比如現在一個熱門話題是老年人容易上當受騙,買一些不靠譜的保健品。這些老人都是非理性的嗎?

不一定。那些推銷保健品的人賣的並不僅僅保健品,同時也是一種情感服務,比如認乾爹乾媽之類。老人未必不知道保健品沒啥用,但是老人可能認爲反正喫保健品也沒什麼壞處,他花點錢滿足一下情感需求未嘗不可。

如果一個現象長期存在,那就有可能是博弈論的研究內容,博弈論稱之爲“均衡”。

再比如說,像百度、莆田系醫院、拼多多APP這些東西,充斥着假貨和騙局,爲什麼能長期存在呢?也許這就是當今中國的博弈格局所決定的,這個結果可能是各方的理性選擇。

0x3:博弈論的用處

因爲要求各方是充分理性的,有時候博弈論會得出一些非常怪的結論。

比如你可能聽說過這個故事。老師讓全班所有同學都想一個數字,說誰想的數字最接近全班平均值的2/3,誰就獲勝。那如果我們假定所有同學都足夠聰明的話,正確答案應該是0。這是因爲不管你猜測全班人的共識是多少,你都會把這個共識乘以2/3,但別人也能想到這一點,他們也會把你的數字再乘以2/3……你們的每一步推理都會讓共識變得越來越小。而事實上哪個大學的學生都不會得出這麼極端的答案來。

生活中絕大多數人不會聰明到那個程度,去做那種極端的推理。那難道說博弈論真的沒用嗎?博弈論的實際應用,並不是這種數學謎題。

博弈論能幫助我們理解長期存在的各種現象。如果你觀察到社會上有很多不合理的現象,而這些現象還長期存在,你會認爲這是因爲社會上的人都太愚蠢了嗎?博弈論會讓你考察現象背後的博弈規則。

當然,這絕對不是說可以理解的現象就”應該“長期存在。博弈論更重要的作用,是告訴我們如何改變不好的局面。

可能這個壞局面是因爲博弈是單次的,可能其中有信息不完全的問題,可能是因爲那個許諾不可信。現在博弈論已經能夠提供各種工具,幫我們達成更好的局面。

我認爲人們之所以用不上博弈論,是因爲缺少識別博弈格局的眼光和改變博弈規則的意識。

對個人來說,最起碼的一點,你應該時刻提醒自己要理性。研究博弈論就好像下棋一樣,你要考慮你的每一個行動都是有後果的,你要事先想好對方會有什麼反應,然後你再怎麼應對,然後對方再反應……一直到最後是個什麼結果。

而我覺得一個更深層的意識是,你應該首先做一個“player”。

Player,在遊戲中叫玩家,在體育比賽中叫選手,在博弈論中叫參與者,其實都是一個意思,博弈論(Game Theory)說的都是 game。有一點參與遊戲的精神,你就有權在規則範圍內採取對自己最有利的行動,你就是積極主動的,你就會平等對待對手,你就既不是一個渾渾噩噩整天根據別人設定做事的人,也不會有整個世界繞着自己轉的幻覺。

 

二、羣鴉的盛宴

博弈論是關於人在社會中如何做理性決策的理論。理性決策常常不是我們喜歡的決策。宋神宗有句話叫“快意事便做不得一件”,說的就是理性決策總是不得已的。在現有的規則之下,考慮到對手的反應,你通常沒有太多選擇。

面對世間種種無奈,文人總愛感慨說是人心不行或者文化不行。你學了博弈論就會發現,很多事情是這樣並不是因爲有人喜歡這樣,這不是思想品德的問題。哪怕所有人都不喜歡這個局面,所有人卻都只能維護這個局面。

有時候人們感覺簡直就是身處無間地獄:每個人都在受苦,誰都沒辦法脫離苦海。只有博弈論能解釋這樣的現象。陳道明在《無間道3》裏有一句話,說“往往都是事情改變人,人改變不了事情。”

往往是博弈改變人。但我們學習博弈論的終極目的,就是要改變博弈。這章咱們講博弈論的三個基本概念:“帕累托最優”、“壓倒性策略”和“納什均衡”。

0x1:爲什麼商家總扎堆?

你注意到沒有,同一類商家總愛聚集在一起。偏一點的地方什麼都沒有,熱門地段卻有好多同樣的店,一個十字路口竟然會有兩家加油站。新聞媒體也是這樣,一有什麼重大事件或者熱門電視劇,你打開電視所有頻道都是這個內容。從消費者的角度,我們希望加油站更分散一點,讓所有人都能就近使用。我們希望產品有更多的差異化。那爲什麼商家非得扎堆呢?

用博弈論思考,這並不是商家都盲從、只知道互相模仿,而是他們不得不這樣。

博弈論要求你必須考慮競爭對手會怎麼做。

咱們把問題簡化一下。設想有一個比較長海灘,你要在海灘上擺個攤賣冰激凌。你應該把攤放在哪裏呢?

如果整個海灘只有你一家冰激凌攤,那你擺哪裏都可以。但是考慮到可能將來會有競爭對手,你就應該把冰激凌攤擺在中間!這是因爲如果你擺的位置比如說偏右,對手來了只要往中間區域一擺,他輻射的勢力範圍就絕對大於你。

好,現在作爲先來者你已經把攤位擺在了中間。那如果新來了一個競爭者,他應該把冰激凌攤擺哪兒呢?如果他的位置靠右,的確能夠獨佔他右邊的市場,但是那也就等於把從你倆中間開始算,左邊超過一半的海灘都拱手讓給你了。所以沒辦法,他也只能把攤位放在中間,只有這樣才能跟你平等競爭。

這就是爲什麼要扎堆。可是我們想想,如果兩家事先商量好,分散開,在海灘上1/4和3/4這兩個位置分別擺攤,其實還是兩家平等賺錢,而且還能確保消費者買冰激凌的走動距離最短。這樣多好呢?

從扎堆到分散的這個改進,兩個商家的利益都沒有受損,而消費者的境遇更好了,所以可以稱得上是“帕累託改進”。帕累託是一位意大利經濟學家,帕累託改進的意思是這個改進能在不傷害任何一個人利益的同時,使得至少一個人的境遇變得更好。如果一個局面已經好到沒有帕累託改進的餘地了,這個局面就叫“帕累托最優”。

一個理想的、令人快意的世界應該是帕累托最優的。扎堆顯然不是帕累托最優,分散纔是帕累托最優。那爲什麼博弈的結果不是帕累托最優的呢?

因爲在這場博弈中,帕累托最優是個”不穩定“的局面。就算一開始兩家商量好了分散擺攤,將來也會有一家偷偷地轉移到中間去!他這麼做不是帕累託改進,因爲會傷害對手和消費者的利益,但是這麼做對他自己很有利。

理想青年喜歡帕累托最優,但是博弈論告訴我們只有穩定的局面才能長久存在。

0x2:囚徒困境

你可能已經非常熟悉“囚徒困境”的故事了,但是因爲從這個故事裏能得出特別重要的概念,我們值得專門講一遍。

有兩個小偷被警察抓住了,但是警察手裏並沒有過硬的證據,只能指望口供。警察開出的條件是如果兩個人都招供,那就都判刑3年;如果有一個人招供,另一個人不招供,那麼招供的人就算立功,可以無罪釋放,而不招供的人就要嚴懲,判刑5年;如果兩個人都不招供,因爲證據有限,所有兩個人都判刑1年。警察不準兩人通氣,都是單獨審訊。

咱們別管什麼正義和邪惡,咱們幫這兩個囚徒分析一下博弈策略。首先我們要把不同策略和結果畫在下面這張矩陣圖裏。這種畫法是美國經濟學家托馬斯·謝林發明的,謝林曾經開玩笑說發明矩陣圖是他對博弈論所做最大的貢獻,

矩陣邊上是兩個人採取的策略,中間是各種策略組合帶給兩人的回報。你一眼就能看出來,最好的結果是兩個人都不招供,然後都被判一年。

但是博弈論要求我們每次做判斷都要考慮對方,不是考慮怎麼對對方好,而是考慮對方會怎麼做,然後你怎麼做。

  • 對囚徒1來說,如果對方招供了,他就只能招供,因爲不招供判5年招供判3年。
  • 可是如果對方不招供,他還是應該招供,因爲他招供就是立功,可以直接走人。

也就是說,不管對方是招供還是不招供,囚徒1最好的策略都是招供。

這就引出了我們要說的第二個概念,叫做“壓倒性策略(Dominant Strategy)”。這個策略壓倒其他一切策略,不管對手怎麼做,這個策略對你來說都是最好的。

反過來說,不招供,對囚徒1來說則是一個“被壓倒性策略(Dominated Strategy)”,也就是不管別人怎麼做,你這麼做對你都是不好的。

作爲理性的人,如果博弈中有壓倒性策略,你就一定要選擇這個策略。任何情況下都不要選擇被壓倒性策略。

囚徒1的壓倒性策略是招供,囚徒2當然也是如此。結果就是兩個人都被判刑3年。這個結果可不是帕累托最優。

但這個結果是”穩定“的。這表現在任何一方都絕對不會單方面改變策略。這就引出了我們要說的最重要概念:納什均衡。

納什就是電影《美麗心靈》裏說的那個數學家約翰·納什。納什均衡的意思就是這麼一種局面,在這個策略組合裏,沒有任何一方願意單方面改變自己的策略。

換句話說就是不管我們喜不喜歡,這個局面我們認了。關鍵詞是“單方面”。是,如果咱倆都不招供會更好,可是要變必須得一起變,我自己不可能”先“變。因爲人人都不願意先變,結果這個局面就變不了。

諾貝爾經濟學獎得主羅傑·梅爾森有句話說,納什均衡對經濟學的意義,就如同發現DNA雙螺旋結構對生物學的意義那麼重大!我理解這就是因爲納什均衡給了我們一個觀察世界的眼光。

前面說的扎堆擺攤就是一個納什均衡。如果一個現象能夠在社會中長期穩定地存在,它對參與的各方來說就一定是個納什均衡。納什均衡告訴我們評價一個局面不能只看它是不是對整體最好,它必須得讓每個參與者都不願意單方面改變纔行。

理想青年喜歡帕累托最優,理性青年尋找納什均衡。

比如你要跟人籤個協議,如果你希望這個協議能被各方遵守,那它就必須得是一個納什均衡。一個制度哪怕再好,如果不是納什均衡就不會被遵守。一個制度哪怕再不好,如果是納什均衡就會長久存在。

0x3:秦朝人的遊戲

《權力的遊戲》這個電視劇使我想起了霍布斯的《利維坦》。鐵王座上一旦沒了強力人物,維斯特洛大陸就陷入了“一切人對一切人的戰爭”。我們看現實中不也是這樣嗎?伊拉克和敘利亞有個獨裁者還好,沒了獨裁者的高壓統治各方勢力立即互相殘殺,老百姓進入想做奴隸而不得的時代。

《利維坦》中的“戰爭”和“高壓統治”這兩個局面,都是納什均衡。

現在很多愛好自由的人嚮往中國古代的戰國時期,那時候百家爭鳴、人人爭先。可是戰國時期的人並不喜歡戰國,那其實是一個互相殘殺的時代。

我們想想當時的博弈局面。如果你的鄰國都在勵兵秣馬,你應該怎麼辦?難道你真能像孟子說的那樣用王道去感化別人麼?你的“壓倒性策略”是也只能備戰。甚至有時候你還應該先下手爲強,主動發動戰爭。單方面改變策略是不可行的,這是納什均衡。

這個互相殘殺局面的終結不是靠誰改變策略,而是靠秦國把策略用到極致,用最高水平的暴力完成的。中國統一之後,遊戲規則就變了,專制強權的策略是臣服於我的都可以安居樂業,然後誰敢反對我我就對他堅決打擊。

而被統治者則面臨一種多人的囚徒困境,也叫“人質困境”。是,如果大家聯合起來就一定能推翻統治者,可問題是誰帶頭呢?強權會槍打出頭鳥,誰帶頭誰先死。沒有人願意單方面採取行動,這又是一個納什均衡。

那我們現在回想,秦朝後來之所以失敗,可能不是因爲什麼法律太嚴厲,而是因爲秦朝對自己的統治力過分樂觀。博弈論告訴我們專制強權的主要威脅來自內部!可是秦朝把軍隊主力都部署到外面,居然來不及打擊內部的起義軍。後世的統治者顯然吸取了秦的教訓,武裝力量重點都是對內的……

理想青年一邊讚美百家爭鳴一邊感嘆背叛和殺戮,而你知道此局無關文明與民主,那只是一場權力的遊戲。

不知道這一講會不會讓你感到有點悲觀。帕累托最優常常不是納什均衡。那既然有囚徒困境這樣局面的存在,是不是就非得有個強權來解決問題呢?不一定。

就拿商家扎堆這個現象來說,以前主流媒體的內容的確是同質化嚴重,但是後來有了互聯網,我們就能看到各種滿足細分需求的自媒體。這就相當於有人願意在海灘的邊緣擺攤。這是爲什麼呢?因爲市場的門檻變低了,小成本也可以經營,就沒有必要搶主流市場,遊戲改變了。

說道這裏,我們總結一下襬脫納什均衡,向帕累托最優轉移的思路總共有哪些,

  • 使用更高級別的強權,同時改變「兩因素系統」裏的各個參與方,即所謂的強權控制
  • 增加新的競爭維度,創造出一個新的藍海空間,規避壞的納什均衡
  • 將博弈的形式推廣爲「重複博弈」,改變單次博弈所在的壞的納什均衡
  • 在players之間構建信息交流通道,改變players之間的「壓倒性策略」

 

三、以和爲貴

博弈論研究的一般都是“非合作博弈”,參與者並不是心往一處想勁往一處使齊心合力辦大事,而是每個人想的都是怎麼讓自己贏。那麼有些人可能會對博弈論產生誤解,說你們這是不是研究怎麼自私自利勾心鬥角,這算不算搞破壞呢?不是。出發點是非合作的,結果卻可以達成合作。

這也是經濟學的光榮傳統。從亞當·斯密開始,人們就已經知道哪怕每個人都是自私的,各人都是爲了自己的利益工作,全社會卻能達成高水平合作。

現在我們知道有囚徒困境、公地悲劇、信息不對稱、市場失靈這些現象,那是不是說“看不見的手”就不管用了,必須得讓看得見的手來強制人們達成合作呢?

這些恰恰是博弈論的課題。任何一門社會科學的終極目的都應該是要促進社會合作。合作對所有人都有好處,不合作只可能帶來暫時的利益。但是博弈論研究的合作可不是要搞“思想道德教育”去勸人行善,也不是讓一個強權去管制人民,而是尋求能讓人自願合作的機制。

好的合作,一定得是個納什均衡。

納什均衡是一個美麗的概念。它能解釋很多很多現象,能讓我們迅速破解各種博弈局面,更能給我們設計博弈機制提供約束條件。

其實在很多博弈中,人們原本就想合作。

0x1:聚焦點

你覺得世界上最完美的法律是什麼?我認爲是交通法規,比如說“右側通行”。首先它是最平等的,有錢沒錢有權沒權你都得走路,走路就得右側通行。更好的是,每個人都自覺遵守右側通行,現在別人都右側通行,如果你非要左側通行,你就得撞車,你立即就會傷害你自己。

所以你看,只要馬路上有相向而行的車輛,只要這個地方的法律規定了右側通行,右側通行就一定是個納什均衡。沒有人願意單方面違反這條法律。

但是你想過沒有,右側通行的法律可不是通過什麼第一性原理推導出來的。沒有生理學或者物理學的定律說人就應該靠右側通行,這隻個是任意的規定。

英國人左側通行,也沒有因而產生身體不適。事實上左側通行也是一個納什均衡。有些博弈中有多個納什均衡。

那如果一個博弈中有個多個納什均衡,人們應該如何做選擇呢?

上一章我們說的那個發明了矩陣圖的美國經濟學家托馬斯·謝林(Thomas Schelling),在1960年出了本書叫《衝突的策略》,其中提出一個觀點,說你可以根據約定俗成選擇。謝林後來靠博弈論的工作拿下了2005年的諾貝爾經濟學獎。

謝林說的一個經典例子是這樣的。比如說咱倆約定明天要在紐約市見面,可是既沒說時間也沒說地點,你應該怎麼找我呢?

謝林說你應該考慮那些就算事先不說,人們也能想到的選項。一天之中最常用的時間是中午12點,紐約市最常用的地標是中央地鐵站,所以你最好的選擇,是中午十二點去中央地鐵站找我。

這樣的選項,謝林稱之爲“聚焦點(focal point)”。聚焦點就是在衆多可能的納什均衡中最顯眼的那一個,人們會自動在這一點上達成合作。聚焦點的作用是協調。

一般博弈論老師講到聚焦點,都會讓學生當場做個實驗。比如我們的實驗可以是這樣的,給你四個數,7、39、481、1342,兩個學生各自從中挑選一個,如果兩人選的數字一樣,就能獲得獎勵。那請問你選哪個呢?

當然是選7。7是這四個數中最常見的一個,而且還排在第一位。從純數學的角度每個數都是平等的,選哪個都可以是納什均衡,但是人總有些約定俗成的偏好,這就是聚焦點。

0x2:生活中的聚焦點

經得起實踐考驗的概念總是這樣的:一旦說破了,你有了這個眼光,你就發現它簡直隨處可見。

  • 有些聚焦點是設計出來的。科技產品的“標準”,就是聚焦點。很多公司要賣DVD光盤,很多廠家在生產DVD影碟機,對所有參與者最有利的局面,是光盤和影碟機有一個統一的標準,讓所有影碟機都能放所有的光盤。這個標準具體是什麼其實並不那麼重要,重要的是必須得有標準。
  • 有些聚焦點屬於歷史路徑依賴。像度量衡,用公制就都用公制,用英制就都用英制,你很難說哪個系統更科學。再比如鍵盤,可能 QWERTY 並不是最科學的佈局,但是既然已經成了標準,而且也不是特別不方便,我們乾脆就認了。

有了聚焦點思維,我們就應該在沒有聚焦點的時候主動提出一個聚焦點,促成合作。

你可以先下手爲強。如果DVD是你們公司發明的,那你就應該直接定義DVD的標準,讓別人追隨你。而如果人人都想制定標準,那讓政府出面也不算是對人民的壓迫。

比如我覺得,政府在高速公路上搞限速,其實等於是提供了一個聚焦點。開車並不是越慢越安全。如果所有人都開得很快,你要開得慢你就是安全隱患。如果所有人都開得很慢,你開得快也容易出事。只要大家都用同樣的速度開,每個速度都是納什均衡。那到底用哪個速度呢?限速牌就提供了聚焦點。

政府說這個路段限速每小時100公里,司機的理解可不是”最高“100,而是”建議“100,結果所有人的車速就在100到110之間,合作達成。

聚焦點的最大價值就是它的存在本身。

明天公司要開個重要會議,那幾點開呢?幾點都行,關鍵是你得先有個點,讓大家協調。像每週的例會,就應該在固定時間固定地點進行。

由此說來,傳統文化和社會習俗其實也是作爲聚焦點起到了協調合作的作用。中國人講老人要坐在主座,西方講女士優先,其實這些規範具體是什麼沒有那麼重要,重要的是得有個規範,有了規範就能省下一大堆麻煩。

請注意,聚焦點能這麼有用,有一個關鍵的前提,那就是各方沒有根本的利益衝突。我們都希望能促成這次合作,我們需要解決的只是在哪裏合作。

遇到這樣的博弈局面,我們一定要善於使用聚焦點。

0x3:談判中的聚焦點

你是一個公司的董事長,你們公司要聘請一位CEO。CEO並不是一種標準化的商品,每個公司每個人的情況都不一樣,就好像球星一樣,年薪只能一事一議,談判解決。

其實公司無法科學計算一個CEO值多少錢,而且CEO本人也不知道該要多少錢。你說年薪應該是800萬還是1200萬,好像對雙方來說差別都不是很大。談判目標有很大的任意性,但是公司和CEO本人都希望達成合作!這是典型的需要聚焦點的博弈。

比如你可以說一家跟你們相似的公司的CEO年薪是多少,你還可以援引市場上相似公司CEO的平均年薪,說我們在這個基礎上,給你再提高一點,你看行不行。這樣的聚焦點很容易讓雙方達成一致。

親戚分割遺產、夫妻分割財產,約定俗成的辦法是有爭議的部分就平均分配。其實平均分配很多情況下沒道理,但是社會約定俗成認爲平分是最公平的。

我們看二手房和二手車交易也是這樣,裝修和車況的細節對成交價格影響很小,人們都是上網查查“指導價”是多少。網上價格相對於具體情況具有壓倒性的優勢,這也是聚焦點效應。

想要合作的人們需要聚焦點。只要你能找到藉口,任何藉口都可以是聚焦點。

所以如果你能在談判中引用一個案例,說最近某某公司跟某某公司談出來的就是這個條件,你看咱們是不是也這麼辦,那就是一個強有力的說法。當然對方也可以找個別的藉口。但是歸根結底,我們知道這些藉口其實都是說辭,藉口好使的根本原因是大家本來就想促成這次合作。

事實上,即便有一定的利益衝突,只要合作的願望大於衝突,我們還是可以使用聚焦點。

0x4:實在不行……抽籤吧

你和妻子打算晚上去看場電影。你想看《流浪地球》,但你妻子是韓寒的粉絲,她想看《飛馳人生》。這個博弈格局是你倆雖然存異,但是求同,你們都要求一起去看電影,是共識大於分歧。

充分認識到這個局面,你的第一個辦法就是先下手爲強,把《流浪地球》的票買了再說。對你妻子來說自己一個人去看《飛馳人生》還不如跟你一起看《流浪地球》,所以她只能同意。

如果談判的時候票還沒買,你還可以率先宣佈堅決不看《飛馳人生》。不過從博弈論角度,你這個威脅其實是不可信的,因爲你也想一起看,你妻子可能早就看透你了,而且你要是敢不談判就買票她下次可能會剝奪你買票的權利。

博弈論專家給你們提供了兩個辦法。

一個辦法是輪流。這次聽她的,下次聽你的。但是如果這樣的博弈不常發生,那另一個辦法,乾脆你倆抽籤吧。

總而言之,這一章說的是如果各方都有強烈的合作願望,而博弈存在多個納什均衡,我們要做的就是找到聚焦點。聚焦點可以是生活習慣,可以是歷史傳承,可以是傳統文化,可以是先下手爲強,可以是政府指導,可以是隨便找到的什麼藉口,實在不行還可以抽籤。

這個道理如此簡單,但是別忘了它可是直到1960年才被提出來。

 

四、不縱容,但要寬容

囚徒困境在生活中實在是太常見了。凡是合作則兩利、背叛則兩傷的情況,都可能是囚徒困境。合作對雙方都有好處,我們是好人,我們總是希望合作。但是博弈論告訴我們,有時候背叛是理性的。如果有一方合作一方背叛,選擇背叛的那一方可能會獲得最大的利益,選擇合作的那一方會受到最大的傷害。

接下來,我們來重點研究合作與背叛。防止背叛,最直觀的辦法就是把單次博弈變成重複博弈。

  • 爲什麼旅遊景點的飯菜質次價高?因爲那是單次博弈。你下次就不來了,他能騙一把是一把。
  • 而像麥當勞這樣的連鎖店,哪怕是開在旅遊景點,也會保證質量,因爲它要爲整個品牌的聲譽負責。
  • 很多商家說我們要做一百年,有些商店搞會員制,這些都是重複博弈。

重複博弈之所以有效,是因爲背叛者會受到懲罰。最直接的懲罰就是下次我也背叛你,讓你得不到合作的好處。

0x1:美國往事

以前有些陰謀論者認爲這個世界是被某些祕密組織控制的,比如什麼“羅斯柴爾德家族”“骷髏會”“共濟會”之類,其實都是些無稽之談。並不是說沒有人想祕密控制世界,而是這個世界實在太大也太複雜,你根本就控制不了,更不用說用祕密的方法控制。

但是,美國曆史上曾經有過一個非常成功的祕密組織。它的成員都是有錢人,不但有錢而且還對組織無比忠誠。組織成員視彼此爲親人,有生意通常只跟內部的人做,對外甚至根本不透露組織的存在。組織1890年代誕生於紐約,到1920年代就把勢力擴大到了全國,而美國社會一直到1940年代才知道它的存在。

這個組織就是……美國的黑手黨。

博弈論專家大衛·麥克亞當斯(David McAdams)在《遊戲改變者》這本書裏說,一羣人要想合作,至少要滿足下面兩個條件中的一個,

  • 第一,是合作對自己有好處,人們本來就想合作。
  • 第二,是不合作會受到懲罰。

而美國黑手黨,同時滿足上面這兩個條件。黑手黨給好處,黑手黨有紀律。最關鍵的一條紀律就是誰敢出賣組織,他就會被殺死,而且還是派他的親友去殺他。

如果背叛會受到懲罰,那就不是囚徒困境了。博弈論認爲有效的懲罰必須得滿足幾個條件。

  • 首先你得能發現背叛行爲。
  • 然後懲罰必須得是可信的,對方知道他一定會受到懲罰。
  • 再者,懲罰的力度得足夠。

比如說,世界貿易組織(WTO),就不是一個很善於懲罰的組織。如果哪個成員國沒有履行義務,世貿組織可能會發起一個調查。而這個調查會歷時幾個月,甚至幾年。就算調查形成了結論,也不一定能被執行。那你說加入世界貿易組織之後,你的最佳策略是合作還是不合作呢?

我們看電視裏的毒品交易,這邊出一箱毒品,那邊出一箱錢,本來這個交易挺公平爲啥說着說着突然火併了呢?那是因爲背叛的好處大大超過了懲罰的力度。兩邊沒有組織關係,所謂懲罰無非就是下次這個生意做不成了。可是這筆交易的數額實在太大,幹了這一票我們就可以退休了。爲了避免這樣的情況,你應該把每次交易的額度降低,讓對方認爲背叛不值當。

而這些對黑手黨都不是問題。一直到1963年之前,居然都沒有一個人敢於在法庭上承認黑手黨這個組織的存在!1970年美國國會通過法案保護黑社會污點證人,但是沒用。一直到1991年,因爲黑手黨內部矛盾爆發,有一位重量級人物反水,美國反黑才取得了重大突破。

胡蘿蔔加大棒,有好處有懲罰,這樣的合作關係是非常穩定的。

0x2:穩定與脆弱

但是一般組織可沒有黑手黨那麼穩定。有句話叫“堡壘最容易從內部攻破”,我們看看這句話在博弈論中怎麼用。

有時候幾家企業會在市場上聯合起來,組成叫做“卡特爾(Cartel)”的壟斷組織,去控制某一種產品的產量和價格。這種行爲是政府所不允許的,但是很難找到證據。

1993年,美國司法部推出一項政策,保證給第一個承認自己參與了卡特爾的企業免除一切罪責。這個政策收到了奇效,很多企業站出來舉報同夥。

那我們對比一下,同樣是面對舉報免責的條件,爲什麼黑手黨就這麼穩定,卡特爾就這麼脆弱呢?一個是卡特爾對內部成員沒有特別強有力的懲罰措施,另一個原因可能是黑手黨是個非常特殊的組織。美國黑手黨主要由意大利移民組成,特別強調用家庭和親緣關係增加互信,而一般的組織沒有這樣的凝聚力。

利益和懲罰只是硬條件。如果內部沒有起碼的信任,合作就是脆弱的。

這裏我們可以學習一點物理學家的思維。物理學家從來都不是隻考察一個情景的可實現性,還要考慮它的穩定性。比如牛頓能算出來地球怎樣繞着太陽轉,但是牛頓曾經非常擔心地球公轉軌道的穩定性。如果有個微小的擾動,比如被一個什麼小行星撞擊一下,地球會不會就脫軌了呢?後來是數學家拉普拉斯證明了行星軌道是穩定的,大家纔算放心。

再比如說,愛因斯坦研究給廣義相對論的場方程增加了一個宇宙學常數,的確得到了一個宇宙的靜態解。但是馬上就有數學家證明,說你這個靜態解是不穩定的,有點擾動就會坍縮或者膨脹,那麼人們就意識到宇宙不可能是靜態的。

博弈論裏也有這樣的思維。我們前面講了很多帕累托最優的局面是不穩定,所以不可能長久存在。納什均衡態之所以如此重要,就是因爲它是一個穩定的局面。

重複博弈,怎樣的機制纔是穩定的呢?

0x3:以牙還牙真的好嗎?

1980年代,密西根大學的政治學家羅伯特·阿克塞爾羅德(Robert Axelrod)組織了一個博弈競賽。博弈的內容就是囚徒困境,你要決定什麼情況下合作什麼情況下背叛。各路學者提交了不同的策略算法,大家兩兩輪流博弈,看看最後誰的收益大。

出乎意料的是,最後勝出的是一個非常簡單的策略,英文叫“Tit for Tat”,一般翻譯成“以牙還牙”。這個策略是,

  • 1)不管跟誰,第一輪我都選擇合作;
  • 2)第一輪過後,我就複製對手上一輪的做法。

你上一輪要是跟我合作,我下一輪也跟你合作。你要是背叛了我,我下一輪也背叛你。如果你在哪一輪又選擇合作了,那我還繼續和你合作。我合作,我報復,我原諒,我只是模仿你上一輪的動作。用咱們中國話說,就是“人不犯我,我不犯人,人若犯我,我必犯人”。

阿克塞爾羅德覺得這也太簡單了,肯定有更好的辦法!他又組織了第二次競賽,更多的博弈論專家參與進來,出現了更復雜的算法,結果最後勝出的還是這個以牙還牙。

以牙還牙,簡單、粗暴、有效。

我們想想,以牙還牙策略有意思的一點在於它和任何一個對手博弈的時候,都是最多打成平手。雙方要麼就是合作,要背叛的話對手還可能比他多佔一輪的便宜。可就是這樣,最後算總賬的時候,它的收益超過所有人,因爲它既不當冤大頭,也不作死。這是一個保守的策略,就好像是個以直報怨的老實人。

但是最後老實人勝出了!這是一個多麼令人高興的發現。

後來阿克塞爾羅德寫了一本書叫《合作的進化》,現在已經是名著了。人們從這本書中看到了人類文明的希望,我們終究將會走向合作。

但是你可能不知道的是,以牙還牙其實是一個脆弱的策略。

這個策略對錯誤很不友好。計算機模擬總是精確的,但真人博弈可能會操作失誤。我們設想有兩個人都是按照以牙還牙的策略博弈。一開始你倆一直都是合作,但是在某一輪,他操作失誤了,或者是你判斷失誤了,結果你把合作當成了背叛。然後下一輪你就會報復他。而這又導致再下一輪他要報復你……你們就陷入了一個再也無法合作的死循環。

這不就是冤冤相報嗎?就像巴勒斯坦和以色列,兩邊幾十年的世仇,舊的傷口還沒抹平又添新的仇恨,怎麼調解都調解不好。他們都不是壞人,也許他們只是以直報怨的老實人。

我們在生活中有時候也這樣。小孩打一架過兩天還能和好,可是成年人講原則,兩個好朋友因爲一次誤會就可能一輩子都不交往了。

所以在真實世界中,以牙還牙並不是最好的策略,它不夠寬容。博弈論專家提出一個改進版的以牙還牙:對方背叛我一次,我繼續合作;只有當對方連續背叛我兩次,我再報復。研究表明,在有可能出錯的博弈中,這個辦法的效果比以牙還牙更好。

真實生活中別人可能犯無心的錯,你可能誤判。中國人有句話叫“退一步海闊天空”,強人通常不喜歡這句話,但是其實這句話很有道理,寬容能避免脆弱。不過請注意,這句話的關鍵詞是“一步”。退一步是寬容,退兩步就是縱容了。

總是事情改變人,人改變不了事情。人改變不了博弈。

但真的是這樣嗎?本來是想合作的,怎麼就不能合作呢?如果有一方能寬容一點,被冒犯了再給對方一次機會,也許就不會是這樣悲劇的結局。

 

五、裝好人的好處

博弈論假設參與者都是理性的人,學習博弈論我們學習的也是理性的決策。理性人的一切行動都是爲了自己的利益。但是另一方面,媽媽告訴我們要做個好人。那你說理性的人,還有可能是好人嗎?

有的人認爲我們生活的這個世界是由弱肉強食的叢林法則主導的,好人都很愚蠢。也有的人在任何情況下都選擇做好人。那博弈論是怎麼看待好人的呢?

0x1:好人與囚徒困境

以前有個電視節目是這樣的。兩個人組隊答題,題目都很簡單,答對一些題之後兩人會獲得一筆獎金,有好幾千美元。節目的最大看點是怎麼分這筆錢。規則是每人在一張紙條上寫下“朋友”或者“敵人”這兩個詞中的一個。如果兩人寫的都是“朋友”,就平分這筆錢。如果一個人寫“朋友”一個人寫“敵人”,那麼寫“敵人”的人就拿走所有的錢,寫“朋友”的人什麼都得不到。如果兩個人寫的都是敵人,那就是誰也得不到。

這是一個典型的囚徒困境,而且博弈只發生一次。寫“敵人”,要麼你就拿到所有的錢,要麼你就一分錢都拿不到。寫“朋友”,要麼你就一分錢都拿不到,要麼你只能得到一半兒的錢。對吧?顯然兩個人的壓倒性策略都是寫“敵人”。

然而節目中的真實情況是53.7%的女性和47.5%的男性都選擇了合作,他們寫下了“朋友”。

這些人在金錢面前選擇了相信一個素昧平生的人。他們寧可被人揹叛也不願背叛別人。他們選擇了做好人。類似這樣的研究我見過好多個,甚至有經濟學家還專門跑到監獄裏去,讓真正的囚徒玩了囚徒困境的遊戲。這些研究的結果高度一致:有一半兒、甚至一半兒以上的人選擇做好人。

難道這些人都是非理性的嗎?

一個解釋是這些人的確有點非理性了,因爲他們玩這種遊戲都還不夠熟練。我們說了,人在做熟悉的事情的時候通常是相當理性的。比如有實驗證明,如果讓一羣人連續跟不同的對手玩過幾把囚徒困境遊戲,他們的行爲就會趨於理性,會更多地選擇背叛。這就好像在社會中見識了人性之惡,會把人變得成熟一樣。

但有意思的是,如果讓固定的兩個人連續玩比如說100把囚徒困境遊戲,他們會大量地合作,一直到最後幾輪纔開始互相背叛。

這似乎容易理解,我們在熟人面前總是做好人。但是,簡單的博弈論分析並不支持這個做法!這個現象,曾經是一個著名的悖論。

0x2:好人與有限次重複博弈

上一章我們說,重複博弈會促進合作,因爲你可以懲罰那些不合作的人。但是請注意,上一章說的重複博弈,其實有個隱含的假設,那就是重複次數是無限的。在有限次的重複博弈中,按理說,你還是不應該合作。

這個結論有點怪,但是邏輯很清楚。比如兩個人總共要進行100次囚徒困境博弈。咱們先考慮最後一次博弈。這時候因爲後面就沒有懲罰的機會了,雙方的壓倒性策略都是背叛。對吧?

好,那既然如此,第99次博弈的時候你會怎麼做?雙方都已經算出來了下次對方肯定背叛,那這次還能合作嗎?所以第99次博弈必定也是互相背叛。

那同樣道理,第98次博弈也應該是互相背叛。……有限次重複博弈中的每一次博弈都應該是互相背叛纔對。

可是實驗中爲什麼不是這樣呢?兩個人直到最後階段才背叛,前面是連續的合作。是因爲他們不會計算嗎?對此,我至少聽到過兩個解釋。

  • 一個解釋認爲,真實生活中的博弈次數的確是有限的,但是也是隨機的,如果我們不知道互相還會有幾次博弈,甚至不知道下次還會不會有博弈,那麼爲了避免將來”可能的“懲罰,這次還是應該選擇合作。正所謂“做人留一線,日後好相見。”
  • 一種解釋認爲,就算我們明確知道未來還會有多少次博弈,理性選擇也應該是先合作。這個理論是1982年才被四個經濟學家提出來的,叫“四人幫模型”,非常有意思,事關要不要做好人這個重大問題。

“四人幫模型”這個解釋的關鍵在於,對方到底是不是個理性的人,這個信息是”不完全“的,這叫做“不完全信息博弈”。如果雙方都明確知道對方是理性的人,那有限次重複博弈就不會有合作。可是社會上有些人就願意當好人,他就願意合作。那麼當你面對一個好人的時候,你是合作還是背叛呢?你的理性選擇是合作。

我們假設博弈雙方是A和B兩個人。 A是個喜歡合作的好人,B是個自私自利整天坑蒙拐騙的壞人。兩人第一次博弈,B發現A沒有背叛他,A居然和他合作了。

B就會想,A這個人是不是有點傻呢?那B應該怎麼辦呢?

如果囚徒困境要進行很多輪的話,合作對雙方都有好處。這次A讓B佔了便宜,但是B知道A但凡有點腦子,也不可能讓他永遠佔便宜。與其把A教育成壞人,還不如陪着他當好人,這樣長期下來兩個人都有好處。

所以B在下一輪選擇了合作。當然我們知道,B之所以這麼選,是因爲他覺得A有點傻,A肯定會跟他合作,對別人,B可不敢這麼幹。

這樣幾輪合作下來,A一看B每次都和他合作,他會認爲B也是個好人!就這樣,一個可能是真好人,一個是假裝的好人,兩人就這麼一路合作下去了。直到最後的幾輪,他們纔會露出本來的面目。

這個理論叫做“KMRW定理”,用四個經濟學家名字的首字母命名。KMRW定理說,在不完全信息博弈中,參與者不知道對方是好人還是理性人,那麼只要博弈重複的次數足夠多,合作能帶來足夠的好處,雙方都會願意維護自己是好人的這樣一個聲譽,前期儘可能地保持合作,到最後才選擇背叛。

0x3:好人與社會

這個A和B的故事你是不是感覺有點熟悉?《射鵰英雄傳》裏,黃蓉和郭靖剛剛相遇的時候,黃蓉本是個理性人,知道江湖險惡,所以坑蒙拐騙。但黃蓉發現郭靖的行爲有點傻,居然是個好人。於是黃蓉,在博弈論專家看來是完全理性地也選擇做了好人。結果就成了兩個好人快樂地生活在一起。

那我們現在回頭想想,黃蓉到底是裝好人,還是她本來就是個好人呢?更進一步,當初的郭靖到底是真好人,還是裝好人呢?

從博弈論角度來說,這些問題已經不重要了。你在大多數情況下無法區分一個好人和一個理性人。

張維迎在《博弈與社會》這本書裏講到,KMRW定理可以解釋“大智若愚”。

  • “智”,就是人要自私,一切行動都是爲了自己的利益。
  • “愚”,就是寧可喫虧也不背叛別人。

每一輪都選擇背叛,看似自私,其實那是“小智”。而如果寧可喫點虧也要選擇合作,你就會建立一個良好的聲譽,就會有更多的人跟你合作,從長期來這纔是“大智”。

這就使我想起一個笑話。說小鎮上有個傻青年,別人都喜歡拿一個遊戲逗他玩。在地上擺一張十元和一張二十元的鈔票,他每次都撿那張十元的。後來有個外地人來到小鎮,慕名找到這個青年玩這個遊戲,他果然撿了十元的鈔票。外地人就忍不住問這個青年,說你爲啥不撿二十元的鈔票呢?

青年說,我要是撿二十元的鈔票,還會再有人跟我玩這個遊戲嗎?

0x4:好人與理性人

所以理性人有充分的理由不暴露自己是個理性人,你應該假裝自己是個好人。

那裝好人要裝到哪一步爲止呢?有限次重複博弈的實驗中,雙方通常是到了倒數第二次博弈才暴露自己的理性人面目,選擇背叛。生活中有些人的確是這麼幹的。比如領導幹部有個“59歲現象”,老老實實做了一輩子革命工作,臨退休撈一把大的。

但是59歲暴露可能還是太早了。人生的博弈並不在退休那一刻終止,你除了工作還有很多別的博弈,好人的聲望可以一直有用!

也許你應該裝到生命最後一刻。就好像一個著名的段子,說戀愛中的男女,女孩問男孩,你對我那麼好是不是在騙我呢?男孩的回答非常符合博弈論精神,說如果我是在騙你,那就讓我騙你一輩子吧。

那既然裝好人有這麼大的好處,我們爲什麼不做一個真的好人呢?做一個康德式的好人,跟人合作並不是因爲合作有好處,而是我單純認爲這麼做是對的!這樣行不行呢?

博弈論專家絕對不會建議你去做真正的好人。好人經常對世界有一廂情願的期待。有的好人認爲他能感化別人,他覺得如果我這次跟人合作,哪怕吃了虧,下一次別人也會因爲不好意思、或者爲了回報我而跟我合作。博弈論專家會說這種想法非常危險。事實上,如果你身處一個比較險惡的社會環境,那你不但不應該做好人,而且應該裝壞人。

不過話說回來,做真正的好人的確有個重大好處,那就是你會自我感覺很好。爲了維持這個良好感覺,你寧可犧牲金錢的利益。這大約就是爲什麼在開頭的那些實驗裏,有一半的人一上來就選擇了合作。

現代社會就是這樣,通俗小說、電影和電視劇裏一般都是好人取得最後勝利。你被這樣的文化薰陶,就不自覺地想要跟好人一夥兒。好人跟好人之間形成了一個想象的共同體。這其實是一個幻覺,但是沒辦法,想象的共同體是最強大的社會力量。

這種感覺有時候會如此強烈,以至於我們認爲物質利益都是不值得的。這其實也是理性的!只要你知道自己心中什麼最重要就行。

 

六、布衣競爭,權貴合謀

前幾章我們一直把囚徒困境當做一個不好的東西,但是這裏面有個立場問題。

  • 站在囚徒的立場來說,你希望促進合作
  • 站在警察的立場上,你希望利用囚徒困境。

市場上的企業之間的競爭,就可以說一個好的囚徒困境。作爲消費者我們不希望所有公司聯合起來擡高價格,我們希望各個公司互相競爭。但公司是非常理性的參與者,他們會想各種辦法達成合作。

最常見的辦法是通過某種協調機制進行合謀。只要參與者足夠少,利益足夠大,合謀簡直就是必然的。

這不是一個正能量故事。

0x1:鑽石故事

2006年的時候,有一部萊昂納多·迪卡普里奧主演的電影,叫《血鑽》,當時很多人看了這個片之後表示再也不喜歡鑽石了。採集工付出極大代價卻沒有得到什麼好處,錢都讓商人賺了,而鑽石不過是一種挺好看的石頭而已!

一個公開的祕密是鑽石根本就不是什麼稀有的東西。天然鑽石的儲量其實很大,鑽石之所以賣那麼貴,是因爲鑽石業務被壟斷了。

現在人們都把鑽石當做永恆愛情的象徵,說什麼“鑽石恆久遠,一顆永流傳”,如果你認爲這個類比是因爲鑽石的化學性質特別穩定,我認爲你是個特別可愛的人。

事實是把鑽石和愛情聯繫在一起,和把聖誕老人送禮物和聖誕節聯繫在一起一樣,都是商業宣傳的結果。結婚戴鑽戒的風俗是在19世紀才流行開來。

而就在19世紀,鑽石業務出現了一次重大危機。1869年,南非發現了一個巨大的鑽石礦,導致鑽石的價格直線下降。商人們馬上意識到這是囚徒困境,各家競相壓價的結果是大家都得死。

結果鑽石商人們做成了一件博弈論意義上的壯舉:大家聯合起來成立了一個全球範圍內的壟斷集團。這就是著名的戴比爾斯公司。

戴比爾斯完全不避諱壟斷這個事實,而且還引以爲豪。戴比爾斯公司說我家壟斷,讓鑽石維持一個高價格,對生產者、銷售者和消費者都有好處。

你可能跟我一樣不理解這對消費者有啥好處,但是戴比爾斯的邏輯是這樣的。所謂“鑽石恆久遠”,真正的意思是鑽石能保值。鑽石保值,你們的愛情才能保值。鑽石要是貶值,萬千消費者的愛情不也貶值了嗎?如果沒有了昂貴的鑽石,你們用什麼見證愛情呢?就算你還沒買鑽石,你也不希望鑽石貶值!

說的就好像戴比爾斯是個專門提供愛情服務的公司。總而言之,鑽石是一個非常奇怪的商品,它必須價格貴纔有人買,“貴”就是它的價值。

戴比爾斯這麼多年以來確實做得很好。它讓鑽石價格始終穩定在同一水平上,不降價,但也不漲價。它小心翼翼地不去刺激美國政府,因爲美國有嚴厲的反壟斷法。它會收購潛在的競爭對手,哪裏新發現一個鑽石礦,戴比爾斯不惜代價也要買下來。它還教育你人工合成的鑽石跟天然鑽石有着微妙、但絕對是無比重要的差異。它玩的是一個滴水不漏的遊戲。

但問題是鑽石真不是什麼稀有的東西,你戴比爾斯不可能永遠一手遮天。比如在1999年和2003年,加拿大的鑽石礦就宣佈和另外兩家珠寶公司合作,其中一家是著名的蒂芙尼(Tiffany)。戴比爾斯的壟斷被打破了。

麥克亞當斯在《遊戲改變者》這本書裏對鑽石業的未來表示了悲觀。當時是2014年,戴比爾斯的市場佔有率已經大大下降。

但是壟斷打破之後鑽石價格下跌了嗎?並沒有。

下面這張圖是1987年以來戴比爾斯的市場佔有率變化,的確是一路下降,

但是鑽石的價格並沒有下跌,

下面是2013年以後的數據,

可以說,戴比爾斯失去壟斷地位之後,鑽石價格指數的”波動“的確是變大了,但總體來說,不但沒有下跌,反而還上漲了30%。

我們總是聽說什麼比如俄羅斯發現了一個巨大的天然鑽石礦,鑽石馬上就要不值錢了這樣的分析。可是這麼多年過去了,鑽石還是這麼貴,愛情真沒貶值。這是爲什麼呢?

那當然是因爲理性。鑽石業務的玩家仍然是少數,他們知道鑽石這個東西好就好在價格貴,那是絕對不能降價的。他們非常默契地形成了同盟。

那你說政府不是不允許公司聯合起來成立卡特爾嗎?是不允許。但很多協調是意會,不需要成立什麼敏感組織。

0x2:價格匹配

美國有些商店有個叫“價格匹配(price match)”的做法。比如你在我們商店買了個東西,一段時間內,如果你發現另一家店的價格比我們便宜,那你可以回來找我,我給你補足差價。有些商店甚至還會多給你差價的10%作爲補償金。

有多少人買個東西還關心別的店賣多少錢呢?真正動用這條規則的顧客只是少數。但是既然商店敢這麼說,顧客就相信它家的價格真的夠低,也就沒必要繼續貨比三家了。而從博弈論的角度看來,價格匹配還有一個更重要的作用,那就是避免價格戰。

像電子產品這樣標準化的商品,消費者從哪個商店買是完全一樣的,他們只會關心價格,所以特別容易打價格戰。在理論上這是一個囚徒困境,商店應該把價格壓低到只比成本略高才對,但事實並不是這樣。你會發現各家的價格幾乎都是一樣的,商店之間有很好的協調。

比如A商店實行了價格匹配。本來,競爭對手B商店之所以要降價,目的是爲了能吸引更多的顧客,尤其是要把A的顧客搶過去。但是現在A說了如果B降價,我給顧客補足差價!那也就是說B就算降價也搶不到A的顧客,那B還有必要降價嗎?

所以價格匹配是一種不用直接對話的協調。商店之間並沒有成立卡特爾組織,你政府很難說這有啥不對。

不過價格匹配主要是在互聯網時代之前特別常見。對消費者來說價格匹配是個很麻煩的做法,又要提交證據又要等着退錢。到了互聯網時代,消費者可以很方便地查詢到各家的價格,那我們直接買一個最低價的就行了。那這回商店沒辦法了吧?是不是應該競相壓價了呢?

並沒有。價格匹配的本質是你要降價我就跟着降價,所以你降價沒用。這在互聯網時代其實更方便。

0x3:互聯網時代的合謀

斯坦福大學胡佛研究所的研究員布魯斯·布恩諾·德·梅斯奎塔(Bruce BuenoDe Mesquita)是一位應用博弈論專家,他寫了本書叫《預測師的博弈論》,其中講了個買車的方法。在美國買車是可以討價還價的。布恩諾·德·梅斯奎塔說你要買車先別去車行,你應該給每個車行打電話,告訴他們你今天下午四點之前要買一輛這個型號的車,而且告訴他們你會聽取附近所有車行的報價,這樣他們就會給你一個最低價格。

這裏面的關鍵=是暗中的競價。你跟這個車行談出來的價格別的車行是不知道的。如果車行A知道你跟車行B談出來的價格,而且車行A確保讓車行B知道,它一定會知道車行B給你的報價,並且一定會立即匹配那個價格,你猜車行B會怎麼做?它就不會打這個價格戰。如果打價格戰不能吸引到更多的顧客,背叛沒好處,那這就不是囚徒困境了。

所以我們可以看到,打破囚徒困境的一個最好的辦法就是:player之間互相進行信息通信,信息,可以將所有player從納什均衡帶到帕累托最優。

互聯網時代有很多比價網站,各家的報價一目瞭然,看上去像是一個爲消費者服務的做法。但事實上,比價網站方便了商家之間的價格協調。

商店也在互相盯着各自的報價。如果某一個商店給某個商品降價,其他商店常常會在五分鐘之內也降價。特別是亞馬遜,有人專門做過研究,使用專門的算法根據別家的報價調整自家的價格。

你降價我也降價,那你降價又怎麼能搶走我的顧客,那你何必還降價呢?因爲有這樣的協調機制,至少在報價這一點上看,消費者面對的其實只有一家店。

當然,如果你真想用降價的方法吸引顧客,其實還是可以操作的。比如你可以搞“滿減”之類的活動,商品價格不變,最後結賬的時候再給消費者實惠。中國的網店經常這麼做,這可能是因爲中國的網店仍然處在成長期,還在互相搶地盤。美國的網店已經成熟了,各自承認勢力範圍,儘量避免囚徒困境式的廝殺。

現在美國連“募捐”這種業務都已經形成壟斷集團了。你說你有個慈善項目,比如要搞研究攻克某種罕見病,想要向全國人民募捐,可以。但是你自己去募捐可不行,因爲你的行動力太弱。你必須把項目包給一個專門搞募捐的大公司,它會派人挨家挨戶打電話敲門幫你募捐,但是你只能得到全部收入的20%。

你說這也太不公平了,但募捐是個囚徒困境,勸說捐款的組織太多老百姓已經不勝其煩,讓一家大公司壟斷是最合理的辦法。大慈善組織全都聯合起來,而小慈善項目根本分不到什麼。

這個博弈格局是如果利益很大,而參與者很少,這些參與者就會聯合起來。只要上了這張桌子,穩穩當當就能瓜分天下,何必鬥個你死我活呢?

網上流傳一句話叫“上流社會人捧人,中流社會人比人,下流社會人踩人”。這句話說得很難聽,但是有幾分道理。合作的利益大就不會競爭,背叛的成本低纔會背叛。

怎麼打破這個局面?

  • 一個辦法就是擴大市場準入,讓更多的參與者進來,讓商家的協調沒那麼容易。
  • 另外一個辦法就是依靠政府的力量反壟斷,相當於全體消費者聯合起來去對付那些巨頭。

 

七、有一種解放叫禁止

博弈論這門學問的開山祖師爺是物理學家、數學家和計算機科學家約翰·馮·諾依曼(John von Neumann)。這是一個非常高貴的出身,因爲馮·諾依曼是人類歷史上絕無僅有的天才。不過現在提起博弈論來,我們經常談論的是約翰·納什、托馬斯·謝林這些經濟學家,那這是爲什麼呢?

因爲馮·諾依曼研究的博弈論還只是一種數學遊戲,是後世那些樸實的經濟學家們讓博弈論落了地,能在日常生活中用上。而到了今天,我們甚至可以說博弈論是一切社會科學的基礎。

比如囚徒困境就是個特別有用的思維工具。像經濟學中所謂“負的外部性”、“公地悲劇”、價格戰,國際政治中的軍備競賽,動物世界中的互助行爲,體育比賽中的使用禁藥,醫學中的抗生素濫用,包括心理學中的上癮現象,等等等,其實都是囚徒困境。破解囚徒困境的方法可以在各個領域使用,所以博弈論其實是一個更底層的邏輯。

博弈論是人類理性行爲的第一性原理。

這一章咱們繼續說破解囚徒困境的方法。自由論者可能更喜歡用像重複博弈或者協調這樣自發的方式達成合作,但是老百姓有個更直觀的解決方案:讓政府管。

0x1:我們需要被管

相對於咱們中國人愛看的英式足球,美式足球比賽看起來其實更像是兩支軍隊在作戰。教練對球隊有更直接的控制,有各種攻防陣型,動不動就打個人仰馬翻。你要是覺得美式足球太野蠻,那我想說的是以前更野蠻。

1892年,在一場哈佛大學對耶魯大學的比賽中,哈佛大學發明了一個非常厲害的進攻陣型,叫“楔形推進隊(flying wedge)”。隊員排成一個緊密的V字形去衝鋒,像一把尖刀插入敵人的心臟。哈佛大學憑藉這個陣型取得了碾壓式的勝利。

但是在充分交流的項目裏是不會有什麼獨門絕招的,其他球隊很快就都學會了這一招。楔形推進隊大行其道,人們馬上就意識到一個問題。這個打法特別容易導致受傷。

每個球隊都想用楔形推進隊贏球,但是爲了少受傷,最好還是大家都不要用,這是典型的囚徒困境。而這個問題很容易就解決了,大學聯盟直接規定,不允許用楔形推進隊。

  • 比賽規則很容易貫徹執行,因爲比賽有裁判員。哪個隊犯規,裁判一眼就能看出來,
  • 然後立即就能懲罰,簡單有效。

從博弈論角度來說,這叫做邀請第三方監管。監管的本質是改變了博弈的報償(payoff)。有了有效的監管,不合作就不但沒有好處,而且還會受到懲罰,那麼不合作的行爲自然就會大大減少。

舉個美國的例子,1967年,美國聯邦通訊委員會(FCC)發佈規定,說在電視上做菸草廣告,必須搭配播出一條“吸菸有害健康”的公益廣告。對菸草行業來說這簡直是致命一擊。不做廣告,競爭對手就會搶走你的顧客;大家都做廣告,都花錢不說,吸菸的人還在公益廣告的教育下變得越來越少。囚徒困境。

結果在1970年,美國國會通過一個法案,乾脆禁止了菸草公司在電視上做廣告。這個法案出臺的第二年,菸草公司的廣告費就下降了30%,利潤馬上上升,已經瀕臨死亡的菸草業一下子復活了!那你說美國國會辦的這是什麼事兒呢?這哪裏是打擊菸草業,這簡直是促進菸草業的健康發展啊!

沒錯。事實上,禁止菸草電視廣告的這個法規,是菸草公司自己在國會運作的結果。他們用邀請第三方監管的辦法解決了囚徒困境。

有一種困境叫自由,有一種解放叫禁止。

最近的一個例子是中超聯賽搞了個限薪令。中國球員的競技水平在世界範圍內是很低的,可是他們的工資水平很高,這是因爲球員太少,球隊陷入了囚徒困境。現在限薪令規定,國內球員年薪不能超過稅前1000萬元。

如果你是一個教條主義的擁護自由市場的經濟學家,你可能會認爲限薪令是政府在干預市場正常運行。但博弈論是比經濟學教條更基礎的邏輯。從博弈論角度來說這麼做完全合理:關鍵在於,就算工資封頂,球員的踢球積極性也不會下降,因爲以當前中國球員能力他們只能在中超踢球。限薪並不會讓聯賽的水平受損。

在這種被資方完全掌控的市場裏搞限薪是非常常見的做法。像NBA有工資帽,最近中國的娛樂明星拍戲也開始限制片酬了。要點就在於就算有限薪,明星們也只能留在這個市場裏。西甲聯賽要是搞限薪,梅西還可以去英超踢球,而中國這些明星只在中國最賺錢。

像這樣的監管真不是統治和被統治的關係,而是玩家們避免惡性競爭的協作手段。

但監管並不是萬能的。

0x2:漁民的故事

所謂“公地悲劇”,有些經濟學教科書愛用在草地上放牧打比方,但是現實生活中有個特別顯眼的例子,那就是漁民捕魚。我聽好幾個經濟學家講過捕魚的故事,有意思的是每一本書給的解題思路都不一樣,而且每一本書都沒有徹底解決問題。

這個局面是這樣的。某一片公共海區有魚,如果放任漁民去捕魚,很容易就會把所有魚都捕光。每個漁民都知道“不涸澤而漁”的道理,可是你不捕別人也會捕,囚徒困境。漁場是個公地,漁場是個悲劇。我們應該怎麼辦呢?

經濟學家對公地悲劇有三個辦法。

  • 左派經濟學家的辦法是讓政府監管。
  • 市場原教旨主義經濟學家的辦法是把漁場私有化。
  • 一個更高級的辦法,2009年諾貝爾經濟學獎得主埃莉諾·奧斯特羅姆(Elinor Ostrom)提出的觀點,是社區可以自己管理自己。

在博弈論看來這三個辦法沒有本質區別,其實都是監管。問題只不過是由政府監管,由擁有者監管,還是大家互相監管。

而且這三種監管手段都可能不好使。

  • 咱們先說最高級的。你說社區自己管理自己是吧?最簡單的辦法就是休漁。也就是隻在每年的某些季節捕魚,其他時間休養生息,大家互相監督,誰也不許出海。這個辦法非常容易執行,畢竟誰家要出海別人一眼就能發現。但是你休漁總有可以捕魚的時候吧?結果在允許捕魚的季節,各家漁船都會使用最先進的捕撈技術,還是會把魚捕光。我聽到一個極端的例子是加拿大有一個漁場,最後變成了每年休漁364天,只有一天可以捕撈,可是就在這一天,漁民們還是把魚給捕光了。
  • 第二個辦法是私有化。就算搞私有化,你通常不能讓一家漁民擁有整個漁場,你只能把漁場分給幾家漁民。每家有個年度配額,規定好能捕撈什麼魚、能捕撈多少,包括只能捕撈大魚,不能捕撈小魚等等。……可是誰來監管各家對配額的執行情況呢?
  • 所以捕魚問題最後總要落實到第三個辦法,也就是最讓自由論者反感的政府監管。但政府監管也很難。中國有句話叫“上有政策,下有對策”。政府沒有能力監督每一條船,一般也就是讓各家自己報個數而已,而我們可想而知,漁民會謊報捕撈數量。

我聽到一個比較新穎的辦法,是讓漁民和政府之外的“第四方”參與監管。這個第四方就是沒有執法權的統計機構。比如美國政府要搞人口普查,但是擔心非法移民躲避普查,就乾脆規定統計部門只負責統計而不執法,而且也不會把信息跟移民局共享。

這樣至少你能得到一個真實的總數。就算不知道哪家違規捕撈了,只要監管者知道捕撈的總數,就對這片海區能做到心裏有數,感覺實在不行至少還可以強制休漁。

監管也許是很多人心目中沒有辦法的辦法,但是監管也可以玩的很高級。

0x3:寬嚴皆誤

美國政府的環保部門在過去幾十年有個新思路,是監管要與企業合作。

過去環保部門要看各家企業的污染排放情況,都得親自使用技術手段檢測。政府沒有足夠的人力物力,只能搞抽檢,而抽檢的比例連1%都不到,可以說是高成本低效率。不但如此,環保部門和企業之間還是尖銳對立的關係,動不動就要打各種官司,苦不堪言。

這個新思維要求政府幹脆放權給企業,讓企業自查,自己排污多少,是否違反了規定,自己向政府報告,自己主動整改。而作爲回報,對企業自己上報的違規行爲,政府就不對其進行處罰。

但是請注意,這可是一個政府和企業之間的囚徒困境。理想的局面是企業自覺、政府寬鬆,雙方合作;現實的局面是企業想作弊,政府想嚴懲,雙方都有不合作的衝動。

那怎麼才能合作呢?我們可以設法破解這個囚徒困境。

比如你可以搞重複博弈。監管是長期的。表現好的企業,政府可以對它有更高的信任度,乾脆免檢,企業踏踏實實生產,政府也輕鬆了。

還可以搞承諾。政府可以單方面承諾,說凡是企業主動報告的違規行爲,一律都不處罰。企業也可以聯合起來給政府一個承諾,說我們自願加入這個自我監管計劃,我們在工廠內部設立專門的環保管理者,我們自己管理自己。

而美國環保部門的實踐證明,監管者和被監管者的合作關係還是有可能達成的。

經濟學家和老百姓對“政府”有截然不同的情緒。老百姓心目中的政府是個本來應該“萬能”,可是常常“不能”的東西,什麼都想指望政府,又常常指望不上。而經濟學家最擁護的力量不是政府,而是市場。有些市場原教旨主義經濟學家甚至認爲任何政府監管都是不好的。

可是從博弈論的角度,我們並不認爲政府是一個什麼特殊的存在。根據不同的具體情況,政府只是幾個可能的監管者中的一個。而且因爲執法有成本,政府的監管力量很有限。

最高級的看法是,你應該把政府也當做一個 player。而且政府也應該把自己視爲一個 player。既然是參加博弈的 player,政府也需要博弈論。

 

八、先下手爲強

前面這幾章我們一直在說如何達成合作,但博弈的出發點可不是合作,而是爭奪。你學習博弈論不是爲了樹立什麼“合作意識”,變成愛好和平的小白兔,而是爲了研究怎麼”迫使“別人……“合作”。說白了,博弈的目標是讓別人按照你的意志行事。

這一講我們進入“動態博弈”。動態博弈的特點是參與者出手有個先後次序,我走一步你走一步,就好像下棋一樣。一般博弈論的教科書講到動態博弈都要畫個“決策樹”,你走每一步都要先想好對方會怎麼應對,想想爲了得到想要的結果你最初應該怎麼辦,這叫“向前展望,向後推導”。

在我看來,動態博弈的本質不是輪流出招,而是你可以改變遊戲的規則。

你每次行動之後,留給對方的都是一個不一樣的博弈局面,都是一個新的遊戲。有出手權,這是十分難得、而且可能稍縱即逝的機會。

0x1:既成的事實

有個經典的博弈局面,英文叫“chicken”,是“小雞”的意思,意思是比比誰膽小。在一條筆直的公路上,甲乙兩個人各自開一輛車相向而行,眼看就要撞在一起了。遊戲規則是誰先打方向盤靠邊誰就膽小,誰就是小雞。

當然兩邊首先都肯定不想死,轉方向盤是必然的,問題就在於誰先轉。

博弈論專家不是靠膽大工作的,我們的建議是你可以當着對手的面,把自己這輛車的方向盤給卸了。你這個動作明確告訴對方自己肯定不會轉方向盤,因爲你的車已經沒有方向盤了,你只能走直線。那麼現在兩輛車會不會相撞就完全取決於對方。只要對方不想死,你知道他肯定不想死,他就只能轉方向盤,這樣你就贏了。

你改變了遊戲規則。本來遊戲規則是兩個人都可以選擇是做小雞還是死,而你把規則改成了只有對手能選擇做小雞還是死。你放棄了自己的選項,但把做小雞的唯一可能性交給了對方。

小雞博弈是個非常常見的局面。只要你能確定對手的底線,那麼先發制人,造成既成事實,就能逼迫對手就範。

舉個簡單例子。一對青年男女想結婚,可是父母堅決反對,怎麼辦呢?他們可以強行結婚,既成事實,甚至女方已經懷孕了。面對這個既成事實,哪怕父母再不滿意,他們的理性選擇也只能是接受,而不能再去拆散這對夫婦。就算當時不接受,過段時間找個臺階也就接受了。

英文中有句格言叫“it's better to ask forgiveness than permission”,與其事先請求允許,不如事後請求原諒。如果你算準了你做了這件事對方也沒辦法,那你就應該直接做。

比如說朝鮮核試驗。國際社會號稱堅決反對朝鮮進行核試驗,但是朝鮮根本沒把警告當回事,不但堂而皇之地搞了核試驗,而且搞了好幾次。每次核試驗之後國際社會都要指責朝鮮,但是又能怎麼樣呢?美國正在求着朝鮮“棄核”,等待朝鮮的將是一大筆國際援助。現在誰是小雞?

所以先發真能制人。那如果對方先發了,我們就一點辦法都沒有了嗎?也不是沒辦法,但是這個辦法非常非常危險。

0x2:危險的邊緣

古巴導彈危機就是個典型的例子。1959年,美國在意大利和土耳其部署了攜帶核彈頭的中程導彈瞄準蘇聯。1962年,赫魯曉夫下令在古巴部署更大規模的攜帶核彈頭的中程導彈,等於是直接在家門口威脅美國。肯尼迪不當chicken,選擇了硬碰硬。10月22日,肯尼迪宣佈對古巴進行海上封鎖。

接下來,雙方的做法是讓危機不斷升級。你說封鎖,我非得派艦隊進出。你敢派艦船我就要登船檢查。那我派攻擊型核潛艇!那我逼迫你的核潛艇上浮!雙方你來我往,蘇聯的一個核潛艇指揮官甚至已經決定發射核武器。

我們前面說過的博弈論專家托馬斯·謝林把這個策略叫做“Brinkmanship”,一般翻譯爲“邊緣政策”。在我看來這應該叫“懸崖策略”,意思是咱倆都站在懸崖邊上,你不服,我就把你再往前推一步。我推你的過程中你也拉着我,等於要死一起死。我們腳下的土質已經疏鬆了,還打滑,可能再進一步咱倆都得摔下去,但是接下來我們又往前走了一步。

懸崖策略是動態進行的小雞遊戲。你敢拆方向盤,那我這邊就敢加速,直到有一方讓步爲止。層層加碼比一步到位好,一上來就越過心理底線會讓人覺得你的威脅不可信,而有時候你不試探就不知道對方的心理底線在哪裏。

比如咱倆是兩個黑幫的老大,在一個餐館裏喫飯。你提個建議我說不行,你就突然拿槍指着我。我的手下馬上行動,有五把槍指向了你。下一秒鐘,從外面進來20個你的人,拿槍指着我和我的手下。

那你說這有什麼意義呢?既然大家都不想死爲什麼不一開始就服軟呢?答案是先升級再服軟就不算是小雞了。我們都已經證明了自己的勇敢,雙方都推動了危機升級,這時候只要有個臺階,我們談判解決,各退一步,不算丟臉。

當然古巴導彈危機最終還是和平解決了。蘇聯撤了放在古巴的導彈,美國也撤了放在土耳其和意大利的導彈。雙方都堅持了原則,保全了顏面,雙方都可以宣稱下次對方再也不敢了。

事實上也真不敢了。懸崖策略是非常危險的,它很容易因爲出錯而變成真的災難。就比如剛纔那個例子,房間裏那麼多人都舉着槍,萬一哪個心理素質差的小弟手一抖走火了,馬上就是一場槍戰,大家都得死。

特朗普認知期間,美國總統特朗普和衆議院議長佩洛西就在玩這個邊緣遊戲。 特朗普說我一定要修邊境牆,佩洛西說我一定不給你修牆的預算。特朗普說你不給,我乾脆就不批准整個預算,讓聯邦政府幹脆停擺。佩洛西說停擺就停擺。結果真停擺了。雙方你來我往,接下來特朗普一看政府停擺真是不行,批了預算,但是留了個後手:宣佈國家進入緊急狀態,動用其他政府資金修牆。然後特朗普將面臨反對者向最高法院提出的起訴。

不管這件事怎麼結局,雙方都沒有示弱,他們在選民面前的形象都保住了。

當然,邊緣遊戲其實是很不好玩的,危險實在太大。其實你讓對方先出手,你就已經錯了。最好的辦法給對方一個威懾,讓他根本不敢出手。

0x3:什麼是威懾

我以前聽過中國著名戰略專家金一南的一個報告。金一南說他在國防大學研究核戰略的時候,讀過中國學者寫的關於核威懾的書,可是厚厚一本書都沒說明白什麼是威懾。後來他聽到基辛格講的威懾,基辛格一句話就說明白了。

基辛格說:“威懾有三個要素:實力、決心和讓對手知道。”

  • 第一,我有實力摧毀你。
  • 第二,我有決心摧毀你。
  • 第三,你得知道我有實力和決心摧毀你。

從博弈論的角度,還有特別重要的一點,那就是雙方都不想被摧毀,雙方都得是充分理性的纔行。

美國和蘇聯在冷戰期間的核平衡就是這樣的威懾。核平衡的機制叫做“相互保證毀滅(Mutual assured destruction)”。

不管是我先動手還是你先動手,只要動手我就一定會摧毀你。當然,我也知道你能摧毀我。打核戰爭咱倆都得被毀滅,所以乾脆就別動手。這就是核威懾。

這個機制可不是說說這麼簡單。什麼叫有實力?有實力的意思就是我必須擁有而且部署足夠多的戰略導彈,哪怕對手先動手,我也能確保在遭受第一輪打擊過後手裏還有足夠多的反擊力量,仍然能把對方的國家毀滅。

但是隻有實力沒有決心也不行。蘇聯完全可以這麼想:我先發制人,先用核武器摧毀美軍的一個艦隊,那難道美國就會對我進行全面的核攻擊嗎?那個情況下美國的理性選擇仍然是不要打滅國戰爭,沒必要因爲損失了一支艦隊就搭上整個人類文明啊?

所謂有決心,就是美國絕對不能允許蘇聯這麼想。所以美國製定了一個極其武斷的核戰爭政策,發動核戰爭不需要經過國會討論批准。總統隨身攜帶核按鈕,只要總統和國防部長兩個人同意,立即就可以動手。

這是一個非常不穩定的政策,但只有這樣才能讓對手相信你的決心。所以核威懾真是恐怖平衡啊。

但威懾在日常生活中也有應用。我們前面講了怎樣避免價格戰,說你降價我立即就降價,甚至我提前把價格匹配的政策公佈出去,這其實就是威懾。有能力,有決心,讓對手知道,對手就真的不會降價。

博弈通常都不是溫情脈脈的,你出手就等於露出了獠牙。不過更常見的做法是不要把局面搞那麼僵,給對手一個口頭上的威脅或者承諾,效果會更好。

 

九、其身不正,雖令不從

博弈的出發點是做一個 player,是每個參與者競相採取對自己最有利的行動。生活中有些人自以爲有權力別人就應該聽他的,他就應該令行禁止說一不二,這就是沒把別人當 player。殊不知,就算你名義上的權力再大,別人聽不聽你的那也看博弈的情況。

你想讓你的孩子做一份課外的數學練習題。因爲這不是老師佈置的作業不屬於分內的任務,孩子不想做,那你怎麼辦呢?也許你可以給他一個許諾,說他做完練習可以打一會兒遊戲。這個條件似乎公平合理,但是很多時候孩子仍然不樂意。因爲他不知道該不該相信你這個許諾,畢竟你以前說的話經常不算數。

類似這樣的事情非常常見。每個商店可以說絕對沒有假貨,每個考生都可以說絕不作弊,每對情侶都可以說永不變心,而每個人都知道這些誓言根本不能當真。

說話要是好使還要槍幹什麼?但是,反過來說,如果我們能找到一些辦法讓說話真的好使,那又能省下多少麻煩呢?怎麼樣才能讓你說的話真好使呢?

這可是諾貝爾獎得主托馬斯·謝林的招牌工作。

0x1:威脅和承諾

動態博弈有兩個基本概念,

  • 一個叫威脅
  • 一個叫承諾

人類自古以來就有威脅和承諾的手段,但是要說邏輯清晰地把這兩個手段說清楚,還得是托馬斯·謝林1960年出版的《衝突的策略》這本書。

威脅和承諾都是在博弈雙方都沒有采取實質性行動之前,一方通知另一方的聲明。

  • 所謂威脅,就是我要求你不要去做某件事,我說如果你做了,我就會對你進行懲罰。
  • 所謂承諾,就是我要求你去做某件事,如果你做了,我就會給你一個獎勵。

威脅和承諾在本質上是一樣的,都是我事先說好,會根據你下一步的行動採取一個相應的行動。

這聽起來跟老百姓說的威脅和承諾是一個意思,但是托馬斯·謝林提出一個關鍵的概念,叫做“可信性”。博弈論專家首要考慮的是你這個威脅或者承諾,是不是可信的。

張維迎在《博弈與社會》這本書裏說了一個這樣的例子。大學裏的一次考試,教授發現一個學生的成績,按理說應該給不及格。但是這個學生私下找到教授,說你能不能網開一面讓我及格,你要是給我不及格,我就要報復你,我什麼事情都可能做得出來!這顯然就是一個威脅。那請問教授應該怎麼辦呢?

博弈論要求我們考察這個威脅的可信性。如果教授給他不及格,那麼當這個學生面對不及格這個既成事實的時候,會怎麼做呢?難道他真的會來報復教授嗎?不報復,只不過就是一門課不及格而已。敢報復老師,那就是嚴重違紀,輕則被學校開除,重則被法律懲處。如果這個學生是理性的,他怎麼可能因爲一門課不及格就敢報復老師呢?

所以他那個威脅是不可信的。

博弈論說的可信不可信可不是說分析學生的人品、或者他說話的語氣像不像說謊什麼的,博弈論要做的是設身處地的利弊分析。不可信,是因爲“事前最優”和“事後最優”的不一致。

教授打分之前,學生說你要給我不及格我就報復你,他也許真的很想這麼做,但這只是事前最優。等到分數已經確定了,不及格是既成事實的情況下,學生的最優選擇是接受,不報復,因爲報復不符合學生在那個情況下的自身利益。

對頭腦清醒的人來說,只有可信的威脅和承諾纔有意義。

咱們再舉個例子。有個老頭,他的女兒想要嫁給一位男青年,但是老頭不同意,所以威脅女兒說要敢和這個人結婚,他就要斷絕父女關係。

這個威脅可信嗎?女兒完全可以分析,父親和女婿之間並沒有什麼根本性的衝突,如果結婚已經既成事實,斷絕父女關係並不符合父親的利益。所以這個威脅是不可信的。

那你說老頭應該怎麼辦呢?難道去買一本叫《如何說孩子纔會聽》的暢銷書嗎?當然沒用。所謂“說服力”、“影響力”,一般都是動之以情,只在聽不聽都對自身利益影響不大的情況下才有用。

  • 百事可樂和可口可樂的味道差不多
  • 共和黨和民主黨誰上臺對中間選民來說都無所謂。

博弈論研究的決策選擇不是這種情緒化的東西,而是由利益格局決定的。

爲了吸引一個很有潛力的年輕球員簽約,俱樂部表示,只要你加入我們隊,我們保證你的出場時間!如果球員的頭腦清醒,他就不應該相信這個承諾。因爲保證他上場並不符合球隊的利益。球隊的利益只可能是誰狀態好誰上場。

不可信的威脅和承諾說了也是白說,只會讓人覺得你這個人不靠譜。但是可信的威脅和承諾則是非常有用的。

0x2:如何說別人纔會聽

可信不可信,取決於事後的利益格局。只有你事後別無選擇,履行自己的威脅或者承諾符合你在那個時候的利益,事前最優和事後最優一致,那纔是可信的。

可信 = 別無選擇

爲了發出可信的威脅或者承諾,你必須主動束縛自己的手腳。我大概總結了一下,有三種辦法。

  • 第一個辦法是給別人懲罰你的權力。

商業往來中最常見的辦法是籤個合同。你給我供貨,我承諾給你貨款。那你怎麼能相信我收到貨之後一定給錢呢?因爲有合同。如果違約,我面臨的將是更大的罰款,所以即便是事後,履行承諾也符合我的最優利益。

鍛鍊身體這件事,本質上是現在的你和將來的你之間的一個博弈。現在的你立志說我從此之後每天都要鍛鍊身體,一定要把體重降下來!可是將來的你會找到各種藉口不鍛鍊。

想要讓鍛鍊的承諾可信,你可以找一個朋友,甚至找一個什麼機構,把一大筆錢交給他。你說如果半年之後我的體重沒有減掉10斤,這筆錢就歸你了。這筆錢會大大增加你鍛鍊的動力。曾經有一位經濟學家和他的同事有過這樣的協議,兩人說好按體重增加的斤兩算錢,他真的收了朋友一萬五千美元。

對愛情最好的承諾是結婚。現代婚姻具有法律效力,離婚那是要分割財產的。

  • 第二個辦法是主動取消自己的選項。

中國人的說法叫破釜沉舟,英文世界的說法是“燒掉你身後的橋”,我取消了撤退這個選項,現在我們只能前進。這比什麼動員演說都有用。

反過來說,你減少自己一方選項的同時,還可以給對手一方增加選項。《孫子兵法》中有一句話叫“圍師必闕”,說包圍了敵人最好要留個出口,讓敵人有逃跑的選項。這個不是陰謀,而是陽謀。有逃跑的選項,敵人就不會拼死做困獸猶鬥,我方就能用最小的代價取得勝利。

  • 帶兵在外的將領主動切斷跟總部的聯絡
  • 商店宣佈價格匹配政策
  • 廠家發行限量版的產品
  • 乃至於結婚要送鑽戒、尤其過去結婚還要送彩禮、婚禮要廣邀親朋大辦特辦

這些都可以說是用取消自己未來選項的方式提供可信性。

張維迎還說過一個有意思的現象。爲什麼一個畫家死了,他的作品就會升值呢?這是一個最有力的承諾:他將來不會再出新作品去跟他現有的作品競爭了。

  • 第三個辦法是建立聲望。

如果你是個有信譽的人,那你就算不提供任何附加的動作,你說的話也是可信的。這是因爲如果你說話不算數,你的名聲會受損。

孔子說“其身正,不令而行;其身不正,雖令不從。”聲望最大的好處就是它允許你無需花費任何成本就能提出可信的威脅和承諾。損害聲望,就是對你失信最大的懲罰。

而聲望是需要積累的,積累聲望的過程是一個處處受限、不自由的過程。如果你沒有聲望,那就只能用前面說的那些辦法。

0x3:博弈論的遊戲

總而言之,所有這些方法都是通過自我限制,來提升自己的可信性。可信的人非常有力量,他說話別人就會聽,可以說自由來自自律,有一種擊敗叫放任,有一種賦能叫失能。

其實這是一個有點違反人的本性的做法,人在直覺上都是想增加自己的選項,不願意給自己帶個緊箍。如果我現在要權有權要錢有錢,爲什麼主動找一幫人管着我呢?

實行民主的政府,其實有更大的力量。比如說發行公債。只有你這個制度能保證在政府如果違約就會受到懲罰,人民才願意借錢給政府。政府可能受到的懲罰越大,它的融資能力就越強。英國在光榮革命之後的國債規模就是越來越大,這才保證了英國打贏歷次戰爭。

可是我忍不住就想,像沙特這樣的政府,對人民一貫都是“不問你信不信就問你服不服”,爲啥好像力量也很大呢?

按照博弈論的邏輯,答案也許是這樣的,

  • 政府之所以要自縛手腳,是爲了取信於民。
  • 政府之所以要取信於民,是因爲它把自己當做是個 player,在跟民衆玩一個博弈的遊戲。
  • 政府之所以要玩這個遊戲,是因爲民衆有想法有力量,是可以獨立自主地決定自己採取什麼行動的 player。
  • 沙特政府的收入來源是對石油的掌控,沙特政府並不強烈依賴沙特人民。沙特的民衆是一盤散沙,沙特沒有什麼王室之外的、強有力的公司和組織,不具備那種能跟政府對等博弈的力量。

所以歸根結底,博弈論是屬於 player 的理論。

 

十、後發優勢的邏輯

前面我們講了先發制人的好處,但是生活中也經常有“後發優勢”的說法。那到底什麼時候應該先發,什麼時候應該後發呢?

人們通常都是力爭先發的。你首先採取行動,造成既成事實,會讓對手很被動。

我記得我小的時候,大家把所有的易拉罐飲料都叫“健力寶”。健力寶率先佔領了人們對易拉罐飲料的認知,以至於會讓你犯語法錯誤。先發的品牌可以統治甚至定義一種產品。以前人們曾經管所有隨身聽音樂的設備叫“Walkman”。現在在機場過安檢,工作人員不會說讓你把“平板電腦”從包裏拿出來,而是說把“iPad”拿出來。

你統治了這個領域,讓後來的人情何以堪。也許現在就有很多人,用手機看短視頻不叫看短視頻,叫“看抖音”;聽課不叫聽課,叫“聽得到”……

九十年代,春晚剛剛有小品的時候,活躍的小品演員有趙本山、潘長江、蔡明、宋丹丹……現在的春晚舞臺幾乎還是他們的。難道二十多年來就沒有新的好演員了嗎?如果這個地方的資源就只有這麼多,那顯然是先到先得。先發者搶佔技術專利和標準,搶佔市場份額,甚至搶佔消費者的觀念。

如果先發有這麼大的優勢,別人又怎麼能後來居上呢?特別是中國在過去幾十年的進步,很多人都說這是中國有“後發優勢”。那後發優勢又是什麼呢?

0x1:後發者優勢的博弈

咱們先說一個最簡單的博弈遊戲。甲乙兩人手裏各自拿個硬幣,輪流把硬幣擺在桌子上。遊戲規則是如果兩個硬幣同一面朝上,甲取勝;如果兩個硬幣相反,乙取勝。那這個遊戲應該怎麼玩呢?

顯然是誰後出手誰贏。甲要是先出手,不管甲擺正面還是反面,乙總可以擺個跟他相反的。如果乙先出手,甲總可以擺個跟他一樣的。後出手穩贏。

像五子棋和不貼目的圍棋比賽中,先走的一方有很大的優勢,但是也有一些項目是後走的一方優勢。比如,德撲是個典型的後發優勢項目。

在一把牌的每一輪,都是從發牌的人開始,按照逆時針的順序每個人依次決定是否下注。玩家對自己的位置非常敏感。先加註的位置是不好的,因爲你完全不知道別人手裏牌的好壞,你面臨很大的不確定性。後下注的位置則具有信息優勢。如果前面有人加註,那很有可能他手裏是好牌。甚至前面的人感覺自己的牌不好還可能直接就把牌合上放棄這一把,你坐着不動就贏了。

先下注的打法是防守,後下注的打法是進攻。同樣的兩張牌,如果你的位置靠前就不一定是好牌,你可能應該選擇合上牌退出;而如果你的位置靠後,就可能應該主動加註。

德州撲克是個關於信息的遊戲。這個道理跟硬幣博弈是一致的。

先發者暴露信息,後發者利用信息。

0x2:領先者應該模仿

我們這裏說的先發和後發,是說面對同一個局面誰先採取新動作。有時候局面的領先者反而會選擇後發。一個著名的例子是美洲盃帆船賽上真實發生過的故事。比賽總是在兩條船之間競爭,要比很多輪。有一輪的一開始是美國隊領先,它的對手澳大利亞隊決定冒個險。

帆船比賽非常受風的影響,而海上同樣一個航道,左側和右側的風就可能不一樣。澳大利亞隊從航道右側換到了左側,希望能遇到更有利的風。

帆船界的標準操作,是領先者模仿落後者。落後者要變到航道的哪一側去,領先者應該跟着過去,這樣你是什麼風向我也什麼風向,本來我就領先於你,現在保證我仍然領先於你。落後者不得不先採取行動,領先者要後發跟隨。

可是美國隊的隊長也不知道是怎麼想的,竟然沒有下令跟過去,結果澳大利亞隊的運氣果然好,左側的風幫他們後來居上,美國隊痛失比賽。

這個道理是如果你已經領先,就不要主動冒險了。應該讓落後者先發起不確定性。落後者不改變打法就一點機會都沒有,他想贏就必須冒險,而領先者只需跟隨就行。

佔據市場主導地位的大公司通常不願意首先做一些特別激進的創新。我們現在做得很好還折騰什麼?激進的創新往往是小公司發起的。而面對激進的小公司,大公司如果覺得它的新打法可能會威脅到自己,其實也很容易應對。

  • 一個辦法是乾脆收購這個小公司。Facebook 就是這麼幹的。Instagram 是個新打法嗎?Whatsapp 是下一個 Facebook 嗎?那我收購你們不就完了嗎。
  • 一個辦法是直接模仿小公司。如果這個新打法這麼好,那我爲什麼不能做呢?我是大公司,我有更多的人力、財力和忠實顧客,我出手還有你們的事兒嗎?

這是一個讓小公司非常難受的博弈局面。不創新就一點機會都沒有。其實生活中也是這樣,如果一家有兩個孩子,其中老大通常比較穩重,而老二常常比較叛逆。老大是既得利益的領先者,無需創新。可老二要是不激進一點就沒有存在感,就得生活在老大的陰影之下。

可是小公司創新,又可能被大公司模仿。反而是領先者具有後發優勢。如果把網上的段子放進小品裏也算是一種創新,那蔡明爲什麼不能也學着講段子?

要這麼說的話,領先者豈不是穩贏了嗎?落後者怎麼才能後來居上呢?

0x3:模仿和創新

落後者作爲上一輪的後發者,也有模仿的方便條件。

主動創新是有風險的。你根本不知道這個技術可不可行,你不知道產品做出來會是什麼樣,你不知道到時候消費者能不能接受這樣的服務,你面對太多的不確定性。創新本質上是一場賭博。投入巨大的人力物力,最後可能什麼都得不到。

上世紀九十年代初活躍的那些第一代互聯網公司,現在基本上都死了。Facebook 不是第一個社交網站,亞馬遜不是第一個在網上賣書的,Google 不是第一個搜索引擎。先發者要是佔不住市場,它的唯一價值就是給後發者提供了寶貴的信息。

先發者暴露信息,後發者利用信息。這些信息包括成功的經驗和失敗的教訓。現在後發者至少知道哪條路肯定不通,哪個方向有可能是正確的。後發者不必再做那麼多嘗試了,先發者已經替他們教了學費。模仿一個技術比直接研發一個新技術要便宜得多。哪怕你有專利保護,那我借鑑你的思路總行吧?

但是落後者不能這麼一直模仿下去,光靠模仿是不可能讓自己領先的。現在有些人認爲中國經濟的高速增長完全是因爲模仿了西方,可這怎麼可能呢?如果說華爲一開始是模仿思科,那它後來是怎麼”超過“思科的呢?

模仿的確是落後者的方便條件,你可以少走彎路。但是從邏輯上講,模仿,最多隻能讓你做到和別人一樣而已。想要超越別人,你必須得有一個領先者沒有的東西纔行。

咱們再來看看後發優勢到底是什麼。

前面說的硬幣博弈中,你僅僅”知道“先發者擺的是哪一面,那還是不行的。關鍵在於到了這一輪,你有權選擇擺出相同或相反的一面,你有這個主動權,而先發者沒有。

德州撲克也是如此。後發者不但比先發者更瞭解場上的形式,而且在後發者還有出手權的時候,先發者已經沒有出手權了。

後發優勢 = 先發者的信息 + 後發者的出手權

信息是模仿機會,出手權是創新機會。

那我們看看中國在經濟增長中的出手權是怎麼用的。

  • 首先,中國有一個巨大的市場,而外國公司無法輕易進入這個市場。哪怕中國加入了WTO,在很大程度上開放了市場,外國公司也不容易進入。這是因爲中國有自己獨特的文化和消費習慣。在適應中國市場、瞭解中國消費者方面,中國公司佔據了天生優勢。這是中國公司的一個出手權。
  • 再者,中國有大量聰明而又勤奮的勞動者,還有很好的基礎設施,而很多發達國家沒有。這是中國的另一個出手權。
  • 還有,中國政府還喜歡搞“產業政策”,也就是由政府出面,重點扶持某個產業。產業政策是張維迎和林毅夫爭論的焦點,但是我們從後發優勢這個視角看來,產業政策好不好,其實跟你在國際競爭中的相對位置有關。如果你現在是技術領先者,根本不知道下一個技術進步的方向在哪裏,那產業政策就是政府在亂花錢。但如果你現在是個技術落後者,明確知道先進技術的方向在哪,產業政策就是最快速的模仿方法。產業政策是有中國特色的模仿。

也許這些纔是中國少走彎路、甚至形成彎道超車的真正後發優勢。那發達國家作爲領先者,爲什麼不主動模仿中國特色的打法?答案當然是想模仿也模仿不了。有些出手權只有中國纔有。

甚至在很多情況下,領先者就算有出手權也不用。我們在講麥肯錫報告《超越曲棍球杆的戰略》的時候說過,成功的大公司是非常非常不願意做出戰略改變的。他們會假裝那些新冒出來的小公司都成不了氣候。改變戰略是很難受的事情。他們寧可眼睜睜地、但是是舒服地,讓出航道。

總結一下,先發優勢在於佔領,後發優勢在於信息和這時候纔有的出手權。如果先發者能佔住,後發者只能被迫創新,那麼這時候先發者的正確做法是模仿後發者,可是因爲各種原因,先發者常常做不到。

學習前人經驗可以讓你少走彎路。但是如果你想贏,想超過前人,那你就必須得有一個前人沒有的超車動作纔行。

正是因爲這個先發和後發的博弈,誰也不能保證一直領先。這個世界的劇情纔是你追我趕,能讓競爭永遠進行下去。

 

十一、真正的”詭道“是隨機性

《孫子兵法》確實是一本實實在在的用兵戰略總結。但《孫子兵法》並不神祕,它的思想,比如像“知己知彼”、“國之大事”、“多算勝,少算不勝”、“君命有所不受”,在今天都已經是常識性的東西。《孫子兵法》中包含了一些樸素的博弈思想,比如說像“圍師必闕”,就是我們前面說過的增加敵人的選項,削弱敵人發出威脅的程度。

那爲什麼說它是樸素的呢?因爲現代博弈論比《孫子兵法》要高級得多。

我給你舉個例子。《孫子兵法》裏有一句叫“兵者,詭道也。故能而示之不能,用而示之不用……”,你看這句話有沒有什麼問題?

這句話的意思很簡單,就是說不能讓敵人知道你的戰術意圖,你得迷惑對手。這個道理固然沒錯,但迷惑對手,就得是說反話嗎?

0x1:詭道的悖論

道罰點球的時候,球到達球門只需要不到0.3秒,守門員不可能在這麼短的時間內反應過來,所以只能事先賭一個方向。點球,是守門員和射手之間的博弈。

罰點球是一個可以欺騙對手的遊戲。這種博弈也是博弈論的祖師爺馮·諾依曼當年研究的東西,不過他研究的是打撲克。

在德州撲克最基本的操作,如果你手裏的牌好,你就應該加註;如果你的牌不好,那你就應該不跟了,合上牌退出。對吧?

但打牌這麼老實可不行。牌好就加註,牌不好就退出,那對手一看你加註,不就知道你手裏拿着好牌了嗎?那他不就不跟了嗎?那你又怎麼能贏很多錢呢?你必須得迷惑對手纔行。

打牌,一定要善於虛張聲勢。中文大概叫“詐”,英文術語叫“bluff”。有時候你手中的牌明明不好,也要假裝牌好,選擇加註。可能對手被你嚇住就不跟了,你就贏了。但更重要的是,只有讓對手知道你在牌不好的情況下也會加註,他纔會不知道你加註代表牌好還是牌不好,他纔可能在你因爲牌好加註的時候也跟。有時候你的牌特別好,還得假裝牌一般,謹慎地加個小注。

想踢左邊,故意往右邊看;明明不能,但是讓對手以爲你能,這不就是“能而示之不能”的《孫子兵法》嗎?

但是馮·諾依曼比《孫子兵法》多了一個洞見。馮·諾依曼說,你既不能有好牌就加註,也不能有壞牌就加註。你既不能往左邊踢就往左邊看,也不能往左邊踢就往右邊看。

只說謊話就等於只說實話,對手只要反着聽就行了!

馮·諾依曼說,想要真的迷惑對手,你必須把謊話和實話混合起來。

0x2:混合策略

我們前面講的各種博弈,你最終總是選擇確定的一招,這種情況叫做“純策略(pure strategies)”。我們講過純策略的納什均衡。

但是現在咱們考察一下這個點球博弈。比如說,你往守門員的左側踢,守門員也往左側撲,這個局面是納什均衡嗎?不是。在這個情況下你會想改變策略,往右側踢。同樣道理,如果你往左踢,他往右撲,他又會想要改變策略。不論是哪一個組合,你們兩個之中總有一個人想要單方面改變自己的策略……所以點球博弈裏沒有納什均衡。

嚴格地說,是“沒有純策略的納什均衡”。因爲沒有純策略的納什均衡,所以博弈論不能告訴你應該怎麼踢才能贏這一把。但是,如果你要參加很多次罰點球,博弈論就可以給你一個指導,幫助你用一個”系統“取勝。博弈論要求你使用“混合策略(mixed strategies)”。

所謂混合策略,就是說你不能一直都往一個方向踢,你應該按照一定的概率,有時候往左邊踢,有時候往右邊踢。

那你說這不是顯然的嗎?這還用得着博弈論嗎?但是請注意,這裏面有個大學問。

請問,你應該以多大的概率往左踢,多大的概率往右踢呢?

咱們假設你往守門員的左側踢有時候容易打偏,你更喜歡往右踢。那你能不能以一半的機率往右踢,以一半的機率往左踢呢?不行。如果你這麼踢,守門員就會堅決撲向右側!因爲左邊更值得交給運氣。一半一半這麼踢,雖然你的每一腳都不可預測,但是你有一個非常明顯的統計趨勢可以被對手利用。

那到底應該怎麼辦呢?首先你要考察自己往左踢和往右踢進球的概率分別是多少,然後你應該合理搭配往左踢和往右踢的機率,以至於讓守門員不管是撲左邊還是撲右邊,你進球的概率都是一樣的。

也就是說,你的混合概率選擇,應該把對手能得到的最大報償給最小化。在這種情況下,因爲守門員往左往右都一樣,他就沒有什麼確定的好辦法。馮·諾依曼證明,這是對你最有利的混合策略。這個結論,叫做“最小最大值定理(Minimax theorem)”。

這是博弈論的一個基本定理,它涉及到非常複雜的數學,

  • 第一,你要按照一定的概率,混合自己的打法。
  • 第二,你混合打法的這個規律,必須是讓對手無法利用的。

只說實話不行,只說謊話也不行。在90%的情況下說實話,10%的情況下說謊話,也不一定行,因爲對手還是可能根據聽實話和聽謊話的實際報償,決定一個最佳應對策略。你必須用最小最大值定理計算出來一個實話和謊話的最佳配比才行。

後來約翰·納什進一步證明,所有的博弈,不管有多少參與者,都至少存在一個納什均衡,或者是純策略納什均衡,或者是混合策略納什均衡。不管你玩的是什麼遊戲,博弈論總能給你幫助。

一個理性的守門員和一個理性的射手玩的點球遊戲,必定是雙方各自使用自己的最佳混合策略。誰不用這個混合策略,誰就會被對手抓住破綻。

《三國演義》裏的“煮酒論英雄”這一段,曹操給劉備說了一番“龍之變化”。曹操說“龍能大能小,能升能隱;大則興雲吐霧,小則隱介藏形;升則飛騰於宇宙之間,隱則潛伏于波濤之內……龍之爲物,可比世之英雄。”

我感覺曹操說的有點像最小最大值定理。英雄做事,必須完全沒有可以被敵人利用的規律。

0x3:真隨機的好處

那你說這要求也太高了,難道罰點球之前還要做個計算不成?是的。如果你要罰的這些點球都價值千金,計算就是值得的。事實上有人統計了1995到2012年間的職業足球比賽中的9017個點球,發現這些真實比賽中的點球結果,和最小最大值定理要求的混合策略納什均衡,高度一致。

我們大約可以說,職業球員有一種很好的比賽感覺,他們知道怎麼樣才能最大限度地迷惑對手。而且近年以來,有很多球隊已經在使用專門的軟件工具來分析對手和計算自己的策略。比如我們在世界盃期間經常聽到這樣的報道,點球決勝的時候守門員手裏有個紙條,上面寫着對方射手最可能的射門方向。我敢打賭紙條上的建議絕對不是對方射手最擅長的方向,而是一個全面考慮的混合策略。

更了不起的是,同樣的研究還表明,職業球員還執行了相當不錯的隨機性。

人類非常不擅長執行隨機性。比如我要求你以左、右分別是40%和60%的概率踢點球,你會怎麼安排呢?

先踢4個左再踢6個右嗎?還是按照“左右左右左右”交替,再給中間多幾個右嗎?從統計角度看,這些安排都太整齊了,非常容易被人利用。一般人想到隨機性,會強烈地以爲應該交替進行。比如你前兩次罰點球都踢向了左側,這一次就可能非常想踢右邊,而如果你有這個心理,對手就可能會利用,他就可能會重點防守右邊。

唯一正確的做法,是執行真的隨機性。比如你可以隨身帶一本書,每次罰點球之前隨便翻開一頁,如果頁碼的個位數是0到3之間你就踢左邊,如果是4到9之間你就踢右邊。

有人考察了都是業餘選手參加的“石頭剪子布”比賽,真有這樣的比賽,發現業餘選手的特點恰恰就是出手不夠隨機。他們在原則上可以被人用概率論系統性地打敗。

不是真隨機,就會被破解,這個道理和密碼學是一樣的。隨機性,纔是真正的“詭道”。這個原理有很多應用。

  • 比如打網球。如果你知道對方的反手比較弱,是不是就應該一直給他回反手呢?不行,那樣的話他就能預測你的回球了。就算你知道他喜歡正手,也得按一定的比例給他回正手,你必須使用混合策略。而職業網球選手真的做到了隨機性非常好的混合策略。他們當然不會隨身攜帶一個隨機數發生器,但是他們比業餘選手更隨機。
  • 再比如足球和籃球中,如果你們隊中有個球星特別能得分,那是不是應該一到前場就把球交給球星呢?不行,那樣的話你的戰術就是可預測的,對方防守球員就會重點盯住你們的球星。球星再好使,你也必須以一定的概率傳球給別的球員。事實上球星在前場很大程度上是起到一個牽制對方防守兵力的作用。
  • 工商局檢查產品質量也好,交警查違章停車也好,一般都是抽查。而你這個抽查可不能有規律。你要是固定在每天下午兩點查停車,別人就會躲過你這個點。最好的辦法是隨機抽查。
  • 我聽說慈禧太后喫飯從來都不是可着一盤菜猛喫,都是面對幾百盤菜隨機地選擇,每樣大概只吃一口,以至於那麼多年人們愣是不知道她愛喫什麼,這樣別人就不容易在她的飯菜裏下毒了。
  • 還有,在“田忌賽馬”中,想要避免被田忌坑,齊威王的最佳策略,也是隨機安排出場順序。

混合策略不是陰謀而是陽謀。專門說謊話是搞陰謀,可是陰謀是能夠被識破的。使用混合策略,你就算把決策方式告訴對手他也沒辦法。陽謀不怕被識破……歸根結底,大家都是納什均衡的奴隸。

 

十二、怎樣篩選信號

“學而時習之,不亦說乎”中的“習”,一般理解成複習和練習,我覺得不太對。我們知道刻意練習並不好玩。你必須在枯燥、孤獨和挫折中提高。我讚賞的一個解釋是“習”應該代表實踐,是學以致用。你本來誰都打不過,學了幾個絕招之後出去指哪打哪大殺四方,這才叫不亦說乎。

博弈論是一門可以學而時習之的學問。我們學習了一個博弈局面之後得舉一反三,要像使用成語典故一樣,在各個領域發現它的影子。有時候看起來非常不一樣的幾個事情,背後可能是同一個博弈原理。比如我給你說幾個事兒。

  • 一個是廣告。新品牌要推廣完全可以理解,可是像奔馳、寶馬這樣的品牌,可以說早就婦孺皆知了,那爲什麼這些公司還要年年都花那麼多錢去做廣告呢?
  • 一個是上大學。我們在工作中真正用到的知識,大部分都是在工作現場學。大學裏大部分課程你根本用不上,但是難度還挺大。事實上很多人就算不上大學也能把他現在的工作做得很好。那人們爲什麼非得上大學呢?
  • 一個是吹捧文化。有些明明挺體面的人,爲什麼要在公開場合那麼肉麻地去吹捧領導呢?難道說他們不知道那個樣子很可笑嗎?

這三件事的共同特點是都很貴,但又都沒什麼直接的用處。

  • 或者花的是金錢
  • 或者花的是時間
  • 或者花的是臉面

在博弈論看來,人們做這樣的事情,都是爲了解決信息不對稱。

0x1:怎樣讓信息可信

一種常見的博弈局面是有一方參與者知道一個關鍵信息,而另外一方不知道。一方強烈地想讓另一方知道他的信息,但是又怕對方不信。一方強烈地想知道對方的信息,但是又怕對方說謊。這就叫“信息不對稱”。

你有一個產品,你知道這個產品絕對是好東西,可是你跟消費者說這是好東西沒用,因爲所有商家都說自己賣的是好東西。在另一頭,消費者也很想買個好東西,可又不知道該相信誰。明明都想相愛,但是因爲不信任,結果只能是互相傷害。

經濟學家喬治·阿克洛夫(George Akerlof)就因爲用數學語言說明了信息不對稱會導致舊車交易市場的失靈而獲得了2001年的諾貝爾經濟學獎。但是你可千萬別以爲諾貝爾經濟學獎是個挺容易的獎,要知道那一年的經濟學獎的主題雖然是“信息不對稱”,但可是發給了三個人,同時得獎的還有約瑟夫·斯蒂格利茨(Joseph Stiglitz)和邁克爾·斯彭斯(Michael Spence)。

斯蒂格利茨認爲既然市場失靈,就應該指望政府,必須讓政府檢查產品的質量,懲罰質量差的商家。但是斯彭斯則提出,其實市場也有自己的辦法。

斯彭斯的學說叫“發信號(signaling)”。你光說,別人可能不信,但是你可以採取一些行動啊。

比如說,爲了讓人相信你賣的這個二手車是好車,你可以提供一個保修合同。這個動作的特點是隻有在這輛車是好車的情況下,你這麼做纔對自己有利。車好,這個合同完全不會讓你受損失。要是車不好,你承諾保修就等於自己害自己,將來要花很多錢給人家修車。

像這樣的動作就是發信號。信號不是說的,得是做的,而且必須是只有在你的信息是真的的情況下,你這麼做纔是合理的纔行。

爲什麼名優產品也要花很多錢做廣告?關鍵詞是很多錢。莆田系醫院也要做廣告,但是它只能花小錢在百度做,可不敢花大錢上央視做。首先消費者上一次當就不來了,一次廣告費就只管這一次。更重要的是劣質服務的要點在於既要有一定的知名度,又不能讓知名度太高。稍微高調一點就可能成了惡名。

而一個品牌既然敢花那麼多錢做那麼高調的廣告,就說明它做的是長期的生意,口碑經得起考驗,所以雖然是廣告,卻是一個可信的信號。

  • 爲什麼要上大學?因爲沒有足夠才能的人上不了大學。
  • 爲什麼要公開吹捧領導?因爲只有公開吹捧到個人形象已經不可挽回的程度,才能證明你的忠誠。

當然,還有一種叫“反信號”,特別厲害的人,因爲無需證明自己,會刻意地保持低調。這些套路相信你可能已經比較熟悉了,這裏我們重點說說斯彭斯從發信號引申出來的一個學說。

這個學說研究的是如果別人沒主動發信號,你怎麼讓他發一個信號。

0x2:逆向選擇和正向選擇

保險業有個根本性的困境。

  • 來投保的,按理說是最需要保險的人
  • 而最需要保險的人,恰恰是保險公司最不想要的人。

比如說醫療保險。如果我非常健康,我認爲我未來這一年幾乎不可能得病,我很可能就不想買這一年的醫保。只有那些身體弱甚至本來就有病的人才會願意買保險。

那既然買保險的大都是病人,保險公司就不得不提高保險費用。

可是保險費用提高了,健康的人就更不願意買保險了。這個惡性循環叫做“逆向選擇”,你選出來的,都是你不想要的。

要解決這個問題,一個思路是把保險變成強制性的。奧巴馬的意圖就是要在美國搞全國所有人必須參加的醫療保險。但特朗普說這個不合理,因爲這不符合自由市場的精神,你怎麼能強迫一個人去買保險呢?

另一個思路,就只能是對患病的人多收點錢,對健康的人少收點錢。可是如果你明文規定這麼幹就等於是歧視病人,會有道德上的麻煩,而且你很難判斷每個投保的人是不是真的健康。

但是有一個辦法,可以讓客戶自己向你暴露他的健康狀況。這一招就叫做“信號篩選(screening)”。

美國私人公司提供的醫保計劃通常有好幾個選項,這些選項基本上可以分成兩類。

  • 第一類,每個月要交的保費低,每年你看病總共需要自己掏的錢的上限也低,但是你每次看病要自己花的錢比較高。
  • 第二類則是每個月的保費比較高,每年自己花錢的上限也高,但是每次看病要花的錢比較少。

如果你是個很健康的人,根本就沒打算去醫院,顯然你會選第一類。保費低不說,萬一得了大病自己出的錢還少。可是平時身體不太好的人卻會選擇第二類,因爲他們會經常去醫院,更在意每次看病花的錢少。當然,保險公司對第二類投保者的懲罰是他們要交更高的保費,而且萬一得了大病自己要出更多的錢,可是第二類投保者自願接受了。

這就是信號篩選。保險公司沒有直接詢問誰是病人,每個人自己通過對選項的選擇發出了信號,然後還被自動區別對待了。

0x3:信號篩選種種

只要你有這個博弈的眼光,信號篩選簡直到處都是。

信用卡公司有個手段叫“餘額代償”。比如你在其他信用卡公司欠了錢,你可以把這筆餘額轉移到我們公司來,我們公司給你一個更低的利率,甚至可能前幾個月你先不還。這一招並不僅僅是吸引新顧客,更是篩選有價值的顧客。

信用卡公司的顧客可以分成三種。

  • 第一種顧客是量入爲出,每個月用信用卡花多少錢,月底出賬單的時候就按時給還上,信用卡對他們來說只是一個方便的支付手段而已。信用卡公司在這些人身上基本上是賺不到錢的,從商家收的一點手續費可能也就夠管理費用。
  • 第二種是把信用卡當做一個分期付款手段的人。他們會有一筆很大的支出,以後慢慢還。
  • 還有第三種,是把自己的信用一次性花光,刷了卡就沒打算還錢的人。

只有第二種顧客能讓信用卡公司賺到錢。那誰會使用這項餘額代償服務呢?恰恰也是第二種顧客。第一種顧客沒有餘額,第三種顧客沒打算還錢。餘額代償是一個正向信號篩選的有力手段,能把別人最優質的顧客搶過來。

爲什麼申請美國大學要填一個那麼複雜的申請表、弄那麼多麻煩的手續?因爲這樣才能把真的認爲自己有機會、同時又有誠意的學生篩選出來。事實上,我聽說美國就有不少高中生,明明符合一個大學的助學金條件,但是居然就沒有申請這個大學,因爲他們懶得填表!

當然,最普遍的信息篩選手段是價格歧視。買同樣一個商品,如果你能讓商家賺20塊錢,商家很樂意;但是如果有人能讓商家賺5塊錢,商家其實也樂意。可是商家總不能明目張膽地看誰錢多就要高價吧?

解決辦法就是區別定價。咖啡要分成中杯、大杯和特大杯,軟件要分學生版、家庭版、專業版和企業版,其實你考慮到地段、人工和研發費用,不同杯不同版的成本幾乎是一樣、或者就是完全一樣的,只是想賣給有不同付費意願的人而已。

只要你掌握這個眼光,你會發現信號篩選簡直到處都是。而沒有這個眼光的人可能很難理解這一切。

  • 花那麼多錢請明星做廣告難道不是社會資源的浪費嗎?
  • 大學爲什麼不教點實用的東西?
  • 商店搞那麼多花樣幹什麼?
  • 他很愛思考,但是全都沒說到點子上。

市場信號理論是1970年代纔出來的東西,“納什均衡”是1950年代才被明確提出的概念,難道此前的人類社會中就沒有均衡態和發信號的現象嗎?當然不是。

身爲一個局面的參與者,未必能洞察這個局面。身處一個時代,未必能理解這個時代。你不得不做了理性的選擇可是又充滿困惑,你覺得社會不對可是又說不明白哪裏不對。學而時習之不亦說乎,人不學習行嗎?

 

十三、博弈設計者

中國有句話叫“勞心者治人,勞力者治於人”。如果這就是曾經的社會現實,我認爲這樣的社會不但殘酷,而且不合理。我們學習博弈論最起碼底線就是不能“治於人”,要做一個獨立自主的 player,識別各種博弈局面,自己決定如何應對,我們拒絕被人安排。

當然我們也不想“治人”,人不能壓迫人,player 跟 player 之間是平等的關係。不過學習博弈論的確有一個比做 player 更高級的視角。那就是做爲規則的制定者,去給人設計博弈局面。

  • 一般人遵守規則
  • 少數人違反規則
  • 極少人人制定規則

設計一個博弈,比參加一個博弈要難得多,這是管理者的學問。

絕大多數博弈局面是自然形成的,有的是社會千錘百煉的結果。你非要自己設計一個,那就得非常非常小心纔行。

咱們先從簡單的說起。

0x1:薪酬的結構

有些人認爲凡是存在的社會現象就都是合理的,我認爲不是這樣。我給你說一個明顯不合理的現象。

私人要賣房子,通常要找一個房產經紀人幫你賣。一般約定的經紀人佣金大約是房產成交價的1.5%。這聽起來是一個很好的正向激勵。經紀人肯定會想法設法把你的房子打扮得漂漂亮亮,幫你做廣告,熱情地向買方推銷,他希望你的房子賣得越貴越好,這樣他自己的收入也高,對吧?

房產經紀人有時候也賣自己家的房子。經濟學家通過美國的數據分析發現,經紀人賣的如果是自己家的房子,相對於賣別人的房子,他會讓這套房子在市場上平均多待10天。他賣自己家房子會有更多的耐心去等待一個更好的價格,而賣別人的房子則很快就出手。這是什麼道理呢?難道他不是也希望把你的房子賣個高價嗎?

這就是激勵機制的問題。比如你的房子按行情能賣100萬元。如果多等幾天,說不定能賣出102萬,這2萬元對你來說是一筆挺好的收入,你肯定願意等。可是對經紀人來說,多賣2萬元,他只多掙了300塊錢。

經紀人沒必要爲了300塊錢再多花好幾天的精力。他希望趕緊了結你這單業務,好再去做別的業務。

你在乎的是能比一般行情多賣出多少錢,經紀人在乎的是趕緊做成這一單。100萬是你應得的,你最在意的是能不能多賣2萬元,而那恰恰是經紀人最不在意的部分。你們的聚焦點不在同一個地方,無法形成一個帕累托最優。所以博弈論專家主張設計一個更合理的經紀人薪酬規則,一個階躍式的薪酬。

比如你可以規定,在成交價的頭100萬元,經紀人可以拿到1.5%,也就是15000元;超過100萬的部分,經紀人可以拿到15%,多賣2萬,經紀人可以多得3千元。這樣一來,經紀人就有充分的幹勁去把你的房子賣到一個更高的價格。

這個“基本收入 + 銷售分成”的模式是一種很常見的薪酬設計。

  • 沒有基本收入,員工就沒有安全感
  • 而如果員工的努力能直接反映在公司的利潤上,分成是很好的激勵。

我們看電影明星的薪酬結構也是這樣的,是談好的固定片酬 + 影片票房分成。

  • 如果明星覺得這個電影意思不大,他會要一個很高的固定片酬,不選我無所謂,選我我就當是爲了掙錢
  • 如果明星認爲這個電影很好,他會要一個比較低的固定片酬以利於自己入選,然後等着拿分成。起作用的分成,一定得讓雙方都在意纔行。

但目前爲止,多數房產經紀人的分成方案通常仍然是固定的1.5%。爲什麼不改進呢?也許是因爲不值得爲個房子像電影明星那樣談判,也許是因爲不懂博弈論。

0x2:拍賣故事

設計博弈規則有時候很不容易,咱們再舉個例子,拍賣。

最簡單的拍賣就像我們在電視中看到的那樣,拍賣師喊價,不停地有人舉牌,最後出價最高的人獲得拍賣品。這叫英式拍賣。英式拍賣的特點是明標,你出的價格所有人都能看到。

你馬上就能看出來拍賣對競拍者來說是個囚徒困境:就算所有人都不積極競價,最後也是這些人拿走這幾件東西。所以競拍者會互相串通壓價。而要避免串通,似乎應該讓競拍者看不到各自的出價。可如果搞暗標,競拍者又有可能會比較保守,不願意貿然出高價。

1961年, 經濟學家威廉·維克裏(William Vickery)提出一種競拍方法,可以讓競拍者放心大膽地出價,現在被稱爲“維克裏拍賣(Vickrey auction)”,也叫“次價密封投標拍賣(Second-price sealed-bid auction)”。這個拍賣方法是暗標,每個競拍者只出價一次,放在信封裏不讓別人看到。出價最高的人中標,但是,他最後付錢不是出自己競標的價格,而是出第二名競標報價。

這聽起來有點反直覺,但正因爲這樣,競標者纔可以放心大膽地報出自己所能出的最高價,而不用擔心因爲不懂行情而喫虧!維克裏靠對拍賣的研究獲得了1996年的諾貝爾經濟學獎。現在我們在 eBay 之類的網站拍賣物品,可以選擇讓機器人替你拍,那個方法本質上就是維克裏拍賣。

那既然維克裏拍賣這麼好,以後所有的拍賣就都改成維克裏拍賣唄?

真實的博弈遠沒那麼簡單。1996年,新西蘭政府拍賣電信運營牌照,就用了維克裏拍賣法,結果成交價格差強人意,還落下一身埋怨。公衆不理解博弈論,說明明電信公司已經願意出更高的價格,政府爲什麼只收一個次高的價格呢?

一場拍賣博弈的性質跟要拍的東西有關。暗標拍賣的缺點在於競標者有時候不知道這個東西到底應該值多少錢。不知道值多少錢,出價就會偏保守。明標雖然有時候會讓競拍者互相串通,但明標很熱鬧,大家互相確認,更容易認可高價。

2000年英國政府對3G電信牌照的拍賣,可以說史上最成功的一次拍賣。這回博弈論專家進行了精心的佈置。

首先,本來政府只想拍賣四塊電信牌照,但是博弈論專家的第一個提議就是能不能想辦法再多弄一塊牌照,總共拍五塊。這是因爲英國正好有四大電信公司,如果拍四塊,人們就會認爲必然是這四家公司拿到,別的公司就不會參與,那就沒有競爭了。

多提供一塊牌照,反而還能促進競爭。英國政府果然擠出了第五塊牌照,結果在四大電信公司之外,又有9家公司也來參與競拍。

其次,這次拍賣使用了“日本式”的拍賣方法。這個方法是明標,但競拍者不喊價,只能被動接受拍賣者的一輪比一輪高的報價。規則規定,只要是留在拍賣會場裏的競拍者,就必須接受當前的報價,如果你退場,就再也不能回來。

這樣做的好處是讓競拍者不但無法做動作串通,而且還自動互相鼓勵。只要你看見場內還有別的公司在,你就知道當前這個價格是被人認可的。那既然別的公司花這個價格買牌照能賺錢,我爲什麼不能呢?

再者,組織者還事先進行了大肆宣傳,讓每個競拍者充分認識到這次競拍的價值。

拍賣一共持續了兩個月,進行了一百多輪提價,最後五個牌照總共賣出了225億英鎊,而政府最初的估計才30億英鎊。更好的是,拿到牌照的電信公司把3G服務搞得很好,因爲互相競爭,英國手機用戶也沒有多花服務費。

所以博弈設計是真有用。但是博弈設計也有邊界。

0x3:理性與數學

1727年,英國女王卡洛琳訪問了格林威治皇家天文臺。皇家天文臺有個相當於首席的“皇家天文學家”,當年擔任這個職位的是愛德蒙·哈雷,也就是“哈雷彗星”那個哈雷。女王發現哈雷的工資不高,就說應該漲工資。

但是哈雷馬上請求女王不要給他漲工資。哈雷說,如果這個職位的工資很高,將來在這裏工作的可能就不是天文學家了。

不過女王還是給漲了工資,而且皇家天文學家的位子此後也沒有被不是天文學家的人搶走。今天恐怕不會有哪個科學家會拒絕漲工資,但這個故事仍然能說明問題:現實中就是有很多人,比如科學家和政客,爲了自己喜愛的工作,寧可拿一份不高的收入。

那我們應該怎樣給科學家和政客設計薪酬體系呢?據我所知,博弈論目前沒有很好的答案。

我瞭解的一些薪酬設計理論,哪怕都是有名有姓的、還使用了數學,也都有一些並不怎麼靠譜的假定,

  • 第一,人們工作只是爲了錢。
  • 第二,只要你監管不到,這個人就肯定就會偷懶,甚至會腐敗。
  • 第三,監督者總是有辦法可以抓到偷懶者

基於這兩點,爲了防止工人偷懶,你就必須用一個更高的工資去收買他。只有這份工作的工資足夠高,他纔會擔心偷懶被抓住,他纔會爲了保住工作而不偷懶。要給多高的工資呢?你得考慮社會基本收入水平和工人偷懶被抓住的概率,越容易偷懶的崗位,工資就得越高。

對官員高薪養廉也是這個道理。有人計算過一個非常複雜的高薪養廉公式,說官員工資應該由社會基本收入、貪腐被發現的可能性、對貪腐的懲罰力度和官員權力的大小決定。

我看到這些一本正經的理論,就想起維克裏得了諾貝爾獎的拍賣法。拍賣規則那麼簡單那麼直觀,實際應用都有可能出問題,那高薪養廉公式對真實世界做了那麼多近似,它還可能有實際應用價值嗎?

把博弈論用於制度設計,我看通常有兩個默認的前提。

  • 一個是激勵必須是基於可見的表現纔行,這個人賣了多少東西,這個人寫出幾篇論文,不可見就沒法操作。
  • 一個是參與各方得是爲了一個單一的目標進行博弈。

但現實生活並不總是這樣的。科學家和政客並不僅僅是爲了工資而工作。他們也想要工資,但是對他們來說,榮譽,地位和權力比工資更值得追求,而你沒法量化。人是理性的,但理性不等於一門心思掙錢。

以前凱恩斯有個感慨。他說經濟學家能不能別總做事後諸葛亮,只知道解釋世界,我們能不能也像牙醫一樣,開個診所,誰有問題我們就幫他設計一個解決方案。

怎麼才能設計一個完美的制度,讓官員不腐敗,讓科學家不偷懶呢?目前來說,博弈論可能還沒成熟到到能開這種診所的程度。

 

十四、冥冥之中有定數

這一章我們要討論一個比做參與者和設計者更高級的博弈論視角,上帝視角。

博弈論的出發點是自由。你首先得是一個自由的 player,能夠獨立自主地選擇博弈策略,才談得上使用博弈論。但博弈論的結局通常是不自由。作爲一個理性的人,你的策略總是納什均衡中的一個,如果納什均衡只有一個,你就只有這一個選擇。所幸的是納什均衡常常並不只有一個,而且我們會參加各種不同的博弈。

生活中有各種各樣的人,有好人有壞人,有的人謹慎有的人愛冒險,有的人重感情有的人重物質,他們的策略選擇都有道理。正因爲如此,社會纔是多樣的。

但是,即便納什均衡並不只有一種,冥冥之中仍然存在着一些規律,在限制我們選擇策略的自由。這些規律決定了社會的演化。

咱們從一個求偶故事開始說。

0x1:三種求偶策略

美國和墨西哥的沙漠裏有一種蜥蜴叫側斑蜥蜴。它們的體型大概有十幾釐米長,雌性長得都差不多,而雄性根據喉嚨區域的顏色,分爲三種,分別是橙色、藍色和黃色。側斑蜥蜴最有意思的一點在於,你可以從一個雄性的外表精確判斷他的求偶策略。是居家好男人還是花花公子,看喉嚨顏色就知道。

  • 橙喉的體型比較大,力量比較強,它的求偶策略是一夫多妻。它會佔領一大片領地,把領地內所有雌性收爲後宮。
  • 藍喉的特點是專一,它只有一個妻子。它總是守着自己的妻子,不容別人挑戰。
  • 黃喉的長相有點雌性化,它的策略是偷情。它自己沒有自己固定的伴侶,專門和別人的妻子發生婚外性行爲,偷偷留下後代。

雄側斑蜥蜴的長相和交配策略都是遺傳決定的。雌蜥蜴選擇和那種雄蜥蜴交配,就等於選擇了自己的後代。那你說,哪種雄性最有遺傳優勢呢?

答案是這三種求偶策略是互相剋制的關係。

  • 首先橙喉剋制藍喉。藍喉的問題是太保守了,只守着一個妻子和一畝三分地,等於把大量的資源拱手讓給了橙喉。
  • 但是黃喉剋制橙喉。橙喉的後宮太大,根本看管不過來,這就給了黃喉可乘之機。黃喉會和橙喉後宮中的雌性偷情,用橙喉的資源傳播自己的基因。
  • 而藍喉又剋制黃喉。藍喉是防守型的打法,而且藍喉之間還會形成聯盟,它們把自己的妻子看得很好,讓黃喉完全佔不了便宜。多一個藍喉找到妻子,黃喉就少一個機會。

橙喉、藍喉、黃喉,等價於石頭、剪刀、布。像這樣的博弈局面,我們前面說了,結果應該是混合策略的納什均衡,參與者應該隨機選擇做哪種蜥蜴。

當然蜥蜴沒有選擇的自由,一出生就沒法變了。生物學家發現,三種雄性蜥蜴在族羣中的分佈比例,是循環演進的。

如果橙喉佔多數,因爲黃喉會和他們的妻子們偷情,下一代中就將是黃喉佔多數。可是黃喉佔多數的時候,藍喉就有了競爭配偶的優勢,那麼接下來一代中藍喉會佔多數。藍喉一多,橙喉的優勢又出現了。雄性蜥蜴的主導類型總是按照橙喉->黃喉->藍喉這個順序循環……

咱們想想這個蜥蜴故事是不是有點發人深省。按現代人的道德標準來說,我們肯定是同情對愛情專一的藍喉。可是對蜥蜴來說,那只是一個求偶策略而已。石頭剪子布,你說哪個好哪個不好?

一個更深道理是,策略的優劣不是永恆的。你必須考慮當前社會的博弈格局,特別是其他人都在使用什麼策略,才知道自己的最佳策略是什麼。

從上帝視角來看,策略可以演化。

0x2:策略的演化

就好像生物演化是基因的競爭,文化演化是“模因(Meme)”的競爭一樣,博弈的演化,是策略的競爭。如果使用一個策略能帶來好的報償,人們就會模仿這個策略,這個策略就會流行開來。“演化博弈論”就是專門研究策略的流行規律的學問。

一個最簡單的例子是左撇子和右撇子的博弈。如果社會上大部分人都慣用右手,你的最佳選擇是讓你的小孩也儘量用右手,不然大家圍着圓桌喫飯,他要左手拿筷子就容易跟身邊的人衝突。在這個博弈裏你應該選擇跟多數人一致的策略。

事實上,哪怕在某一時刻,社會上左撇子和右撇子的人數正好一樣多,這個平衡也是不穩定的,只要來個擾動,有一方的人數稍微多一點,其他人的最佳選擇就是都跟着變過來。這不是盲從,這僅僅是因爲這麼做有好處。

但是到底要在什麼比例的情況下隨大流,甚至要不要隨大流,都取決於具體的博弈格局。

比如咱們說一個簡化版的人類的求偶故事。我們假設世界上只有兩種婚姻觀。

  • 一種人結婚純粹是爲了感情
  • 一種人結婚純粹是爲了物質

現在,大家的博弈格局如下,

  • 一個物質男和一個物質女結婚,兩人有共同語言兩正好是一對,我們假設他們從婚姻中獲得的報償都是1。
  • 感情男和感情女在一起理應享受更好的婚姻生活,我們假設他們的報償高一點,都是2。
  • 如果夫妻雙方一個是物質型一個是感情型,這個婚姻就毫無樂趣可言了,假設他們的報償都是0。

我們再進一步假設結婚配對是隨機的。

那請問,在這樣的情況下,你應該選擇做個物質型的人呢,還是感情型的人呢?

這其實是一道數學題,答案和當前社會上這不同類型的人的人數比例有關係。我們假設物質型的人佔比是 p,那麼感情型的人佔比就是 1-p。

  • 如果你是一個物質型的人,隨機配對結婚,你預期報償的數據期望值,應該是 p×1+(1-p)×0 = p
  • 如果你是一個感情型的人,你預期報償則是 p×0+(1-p)×2 = 2-2p

這兩個數值哪個大呢?

  • 答案是如果 p>2/3,物質型的人報償會更高
  • 如果 p<2/3,你就應該選擇做做感情型的人

前面講的蜥蜴求偶博弈是個真實的故事,但人比蜥蜴複雜得多,我們這裏只能考慮一個非常理想化的模型,而且還用了一點數學,但是我們得出的這個道理是非常直觀的,

  • 如果社會上大部分人都是物質型,你就更可能跟物質型的人結婚,所以你最好也做一個物質型的人。
  • 反過來說,如果社會上有很多感情型的人,那你也應該做感情型的人。

什麼叫“大部分”人呢?我們這個模型給的標準是在人羣中佔比分界線是 2/3 比 1/3。這個數值是博弈的報償決定的。

那你可能會說,不對啊,在現實生活中雖然大部分人都慣用右手,可也有很多左撇子頑強地存在。哪怕周圍人都很物質,也有很多注重感情的人擁有很好的婚姻生活。確實如此。這是因爲在現實生活中做個左撇子,雖然會在社交中有一些不便,但也不至於影響生存和生育;現實生活中的婚姻配對不是隨機的,感情型會盡量找感情型的人結婚。我們說的,僅僅是數學模型。

但即便是這麼簡單的數學模型,也能解釋一些社會現象。我們的社會中的的確確就是絕大多數人是右撇子,人們的的確確會根據周圍人的策略類型選擇自己的策略,社會“風氣”,是有規律可循的。

0x3:鷹鴿博弈

咱們再說一個社會現象。職場中的人,按照隨和性,大約可以分成兩種。

  • 第一種人容易聽從別人的意見,不喜歡跟人發生衝突,處處忍讓,你總可以想辦法說服他,我們稱之爲“鴿派”。
  • 第二種人總是想讓別人聽從他的意見,不怕衝突,處處跟人針鋒相對,你越讓他往東他越往西,我們稱之爲“鷹派”。

可想而知,鷹派和鴿派相處,總是鷹派佔便宜。那既然如此,這個世界上爲什麼還有那麼多鴿派呢?

這是因爲鴿派的策略也有合理之處。我們來分析一個叫做“鷹鴿博弈”的模型。

  • 鷹派對鴿派,鷹派佔便宜,我們假定鷹派得到的報償是1;但鴿派本來就願意跟人合作,所以也不算喫虧,鴿派得到的報償是0
  • 兩個鷹派在一起互不相讓兩敗俱傷,我們假定報償都是 -1
  • 兩個鴿派在一起相處融洽,我們假定報償都是0.5

還是假設大家隨機配對相處。那麼在這個局面中,你是應該做鷹派,還是鴿派呢?

這也是一道數學題,需要計算各自的報償的數學期望。我們假設鷹派的人佔比是 p,那麼鴿派的人佔比就是 1-p。

  • 如果你是一個鷹派,隨機配對相處,你預期報償的數據期望值,應該是 p×-1+(1-p)×1 = 1 - 2p
  • 如果你是一個鴿派,你預期報償則是 p×0+(1-p)×0.5 = 0.5-0.5p

這兩個數值哪個大呢?平衡公式爲:0.5 - 0.5p = 1 - 2p

  • 答案是如果現在鷹派占人口的比例少於1/3,做鷹派更合適
  • 如果鷹派比例大於1/3,你就應該做鴿派。

換句話說,在鷹鴿博弈裏,你應該加入“少數派”。

  • 鴿派是會被鷹派佔便宜,但鷹派的問題是沒朋友。如果這地方的鷹派人數太多,鴿派就不夠用了,做鷹派只會互相傷害,不如做鴿派抱團取暖。
  • 而如果這地方大部分人都是鴿派,你做鷹派就有利可圖。

更有意思的是,根據這個理論模型,社會上鷹派和鴿派的人數之比將維持在一個1:2的平衡。這個平衡是”穩定“的,哪一方的佔比低於平衡,就會自動有人加入哪一方。

你看這個模型也是非常簡單,各種報償的數值,計算出來的人口比例都可能不符合實際情況,但是,它的結論具有普遍意義。爲什麼社會上總是有少數鷹派和多數鴿派?我們抓住了這個現象背後的數學機制。這就是抽象推理的力量。

更復雜的模型還能解釋更精細的現象。比如說,如果考慮隨着人口密集度增加,人們可以自由選擇跟什麼人相處,那麼鴿派可能就有更大的優勢。而這樣的模型就能解釋爲什麼現代人相對於原始人變得更溫順了……

我們年輕時候的雄心壯志變成了對社會的低頭,我們感慨世風日下人心不古,我們囑咐子女不要鋒芒畢露,可我們又暗自期望他們能走一條少有人走的路。一切都彷彿是個性和現實之間的對抗,殊不知一切的背後……都是數學。

0x4:選擇做一個什麼樣的人,你需要審時度勢

從前面婚姻配對和鷹鴿模型的兩個例子中,我們得到以下幾點洞見,

  • 是「隨大流」還是「特立獨行」,並沒有一成不變的黃金原則,這兩種策略也僅僅是策略而已,並不存在高下之分
  • 決定博弈策略的優劣的核心因素是「博弈報償矩陣」,我們對身處的局勢和環境要經常審時度勢,敏銳把握各個players之間的博弈報償,從而動態地決定自己的博弈策略

 

十五、永無休止的博弈

這一章,我們來假象一個思維遊戲。

你是一個聰明又善良的青年,有一天突然繼承了一個遙遠王國的王位。你沒受過執政的訓練,但你決心挑起這副重擔,做個賢明的君主。

你受到臣民的熱烈歡迎。他們告訴你,王國的城外是一片廣博而又富饒的土地,你應該開疆拓土。你興致勃勃地帶着部隊前往野外探測。

你們遇到一隊弓箭手,你派人上前問話,弓箭手一聽說是你,竟然主動要求加入你的部隊。你們在路上發現了一個寶箱,裏面有1500個金幣。你的王國很需要這筆錢,但是你認爲貧苦的農民更需要錢,你決定把金幣全部分給農民。你的威望大漲。你們兵不血刃就佔領了一個礦山和一片森林。

城裏傳來消息,說現在王國的建設迫切需要硫磺。你知道有一處硫磺礦,可是那個礦有一隊祭司把守,他們拒絕臣服於你。你考慮再三,爲了王國臣民的利益,不得不做出了艱難的決定。你帶兵殺死了祭司,佔領了硫磺礦。謀士寬慰你說,現在是戰爭時期,不用暴力是不行的。

城裏的建設規模越來越大,還有情報說鄰國正在大力擴軍,可能要侵略你的王國。爲了儘快取得建設和招兵的資源,你不得不越來越多地訴諸暴力。你們搶了兩個水銀礦、一個寶石礦和一個金礦。你撿到寶箱也不再分給農民了。你們甚至攻擊了一個矮人的小屋,爲了4000個金幣殺死了幾十個無辜的矮人!你甚至霸佔了農民的風車和水車,要求他們必須每週向你納稅。

有一天半夜醒來,你忍不住問自己,我還是以前那個善良的我嗎?我這麼做對嗎?而你知道這麼做是對的。現在是戰爭時期,爲了臣民的幸福,你必須做最理性的決策。

第二天,敵人打過來了。因爲戰鬥力不足,你的王城陷落了。你失敗了。

這是一個叫《魔法門英雄無敵》的老遊戲。打遊戲可以陶冶情操,會讓你成爲更理性的人。

“遊戲”和“博弈”,在英文裏是同一個詞,都叫 game。新手容易動感情,老手都是理性的。而且光有理性還遠遠不夠,你必須選擇正確的策略纔行。

  • 如果遊戲裏的對手比較弱,你還可以嘗試各種各樣的玩法,享受任性
  • 遊戲難度增加,你就沒有太多選擇
  • 要打最高難度,很多時候只有一種正確的打法。
  • 而如果對手跟你一樣也是個人類玩家,那你就算把什麼都做對了也不一定能贏。

我們這篇文章一直在談論決策的學問,那博弈論有什麼特殊之處呢?博弈論專門研究有對手情況下的決策。

最根本的博弈思維,就是你必須考慮對手對你的策略做出的反應。然後你還得考慮你怎麼對他的反應做出反應,他怎麼再反應……博弈論要求你要站在兩個、甚至更多個立場思考問題。

對手的存在,使你不得不陷入競爭之中。

我聽過一個說法。高空跳傘是一個讓新手非常緊張的運動。你會很擔心自己在半空中打不開降落傘,你感覺這簡直是玩命。但是你最多緊張三次。跳過三次之後,你就覺得這是一項平常的運動。

對比之下,比如說交誼舞,是一個絕對安全的運動,但如果你是參加交誼舞比賽,你也會感到很緊張。交誼舞比賽和高空跳傘運動最根本的區別在於,不管已經參加過多少次比賽,你下一次比賽還是會感到緊張。

這就是有對手和沒有對手的區別。你能想到的對手也能想到,你會做的對手也會做,那你怎麼辦。

“納什均衡”是博弈論裏最重要的思想,也是祛除妄念的清醒劑。納什均衡的意思是說如果博弈各方都是足夠聰明的人,大家最終的策略選擇一定是這麼一個局面:在這個局面裏大家都認命了,誰也無法單方面改變策略去謀求一個對自己更好的結局。

納什均衡是謀略計算的終點。我們講了好幾種典型的博弈局面,你應該像學習成語典故和圍棋定式一樣記住它們、識別它們、並且舉一反三地應用它們。

  • 如果各方有強烈的合作意願,而博弈有不止一個納什均衡,那我們就需要一個”聚焦點“。
  • 如果合作對所有人都有好處,但背叛對背叛者有直接的好處,那就是”囚徒困境“。
  • 爲了解脫囚徒困境,如果博弈是可重複的,我們應該尋求對背叛者進行懲罰。”以牙還牙“是最經典的做法,但適當的寬容更能促成合作。
  • 在殘酷世界裏選擇做好人表面上看是非理性的,但只要博弈有比較多、哪怕只是”有限次的重複“,做好人其實是有利的。
  • 如果參加博弈的人數比較少,合作的利益比較大,各方就會形成串通和”合謀“,儘管這麼做不一定對社會有好處。
  • 有時候主動放棄一部分自由、讓第三方”監管“,反而能促進自由,而監管者也應該把自己當做博弈的一方。
  • 如果能迅速佔領某種資源或者造成既成事實,那就”先下手爲強“;如果先出手的一方守不住,那”後發“者反而會因爲得到了關鍵信息和出手權而獲得優勢。
  • 想要讓別人按照你的意志行事,最好的辦法是給他一個”可信的威脅或者承諾“。
  • 有些博弈只有”混合策略的納什均衡“,最高級的玩法不是欺騙對手,而是隨機選擇策略。
  • 如果雙方信息不對稱,傳達信息最好的辦法是”發信號“,這意味着你要用行動去證明自己。
  • 納什均衡是博弈的結局,可是真實世界從來都沒有結局,這是因爲博弈局面總在變化,我們甚至可以主動改變博弈。
  • 博弈論的最高級應用是”設計博弈“,比如說制定一場拍賣的規則,但這非常不容易。
  • 而博弈論的最高視角,則是觀察不同博弈策略在人羣中的演化。我們看到的是,博弈永無休止。

博弈會把人變得更理性和更精明。

  • 上世紀八十年代,中國早就恢復了高考,但是那時候並沒有什麼課外補習班。
  • 上世紀九十年代,數學競賽已經是中國中小學的常規賽事,競賽成績好已經可以給大學加分甚至直接保送大學,但是那時候的奧數訓練都是針對尖子生的免費項目,並沒有全民學奧數。
  • 2010年以前,互聯網、移動支付等新興概念和事物剛剛興起,在最開始的幾年從業者和相應的公司可以獲得超額利潤,行業還處於半藍海

難道當時的人不知道上大學很重要嗎?知道。但是從知道一個博弈,到參加一個博弈,到把一個博弈玩壞、以至於演變出新的博弈,是需要時間的。這是一個逐漸演化的水漲船高。

美國對標中國高考的考試叫SAT。最初SAT只是一個私人公司運營的小規模考試,政府從來沒有規定上大學必須考SAT。後來學生們發現SAT成績是個很有力的信號,考SAT的人才越來越多。

逐漸地,SAT成了申請大學必備的項目。接下來,《美國新聞與世界報道》雜誌把入學SAT成績當做了評定大學排名的一個重要指標。

等到全民都考SAT的時候,有些大學又把SAT成績變成了不做硬性要求的“可選項”。而這樣做的一個重大好處是隻有SAT考得好的學生纔會向大學報告成績,大學用於排名分的SAT指標提高了。

SAT越來越涼,人們又發明了“大學先修課程(AP)”這個新信號。

然後現在這個信號也快要被玩壞了。就好像中國禁止了奧數一樣。

只要社會還需要把人才識別出來的信號,這樣的博弈就會永遠進行下去。但這不是一個每次都回到起點的無間道,在這個演化的過程中,每個參與者都變的更精明更理性了。

這永無休止的博弈,還能把我們變成更好的人。

  • 從整個社會的角度來看,因爲競爭的加劇導致整體的平均水平在提高。
  • 從微觀個體的角度來看,個體更容易陷入局部的內卷局勢中,個人不是比以前更加精明和理性,不斷擴展自己新的維度,突破到另一個新的藍海中

再回到阿克塞爾羅德組織的那個博弈策略競賽。我們知道,當個只合作不懲罰的爛好人是肯定不行的,以牙還牙的策略最終會在比賽中勝出,而寬容版的以牙還牙,也就是被別人背叛兩次再報復,還有更好的合作穩定性。我們不妨把這兩種以牙還牙策略稱爲“正義策略”。

演化博弈論的研究發現,正義策略在一個社會勝出的速度,跟重複博弈的次數非常有關係。

  • 如果大家都是陌生人,互相之間最多隻博弈一次,那背叛策略其實是最優的。
  • 但只要博弈能重複哪怕兩次、三次,正義策略的優勢就會越來越大,以至於所有人都學會了正義策略,以至於到那個時候,連專門做好人的策略都能生存。

這難道不正是中國社會發展的縮影嗎?

  • 古代是“鄉土中國”,絕大部分人一輩子都生活在本鄉本土,周圍都是親戚朋友,大家擡頭不見低頭見,博弈的重複次數非常之多。演化博弈論說這樣的熟人社會里正義策略應該是主流,而事實上的確如此,古代中國是禮儀之邦。
  • 到了近代中國,人口流動起來了,人們在陌生的城市裏舉目無親,就發生了很多爾虞我詐的事情。是中國人跟外國人學壞了嗎?是因爲政府忽視了思想道德教育嗎?根本原因其實是大多數博弈變成了一次性的。
  • 但這只是暫時的。市場經濟越來越發達,人們會越來越依賴重複博弈。中國會慢慢變成一個巨大的熟人社會。不管你是一個公司還是個人,你的品牌、信譽和名聲都是高度可見的,正義策略終將再次勝出。

韓非子有句話說“上古競於道德,中世逐於智謀,當今爭於氣力”,現在我們可以這麼理解這句話,

  • 所有人都意識不到博弈的時候,可能你詩情畫意都能贏。
  • 少數人意識到博弈的時候,誰意識到博弈誰贏。
  • 大家都意識到博弈了,那就只能比執行力,或者看誰能意識到新的博弈。

也許你有足夠的前瞻思維能預期未來的博弈局面,也許你能舉一反三熟練應對各種博弈局面,或者,現在你至少是個敢於博弈的 player。

最後,理論都只是理論。真正的智慧,來自於永無休止的博弈。

 

十六、Player作風

這一講咱們說一點精神層面的東西。

博弈的首要精神是做個“player”。這個詞沒有特別傳神的對應中文,一般翻譯成參與者、玩家或者運動員,我們乾脆就叫 player。所謂 player,是能獨立自主地參與博弈的人。Player 這個身份,不太符合中國傳統的身份認同。我們更熟悉的自我認同都是作爲整體的一部分,我們是某個學校的學生,是家庭的人、單位的人乃至國家的人。

博弈論研究的是人與人合作、競爭、特別是對抗的學問,這些都不是我們日常乾的事兒。我們日常不博弈,都是做些循規蹈矩的事兒。這就使得我們一旦面對真正的博弈,會表現得很不專業,可能有一些很土的行爲。所以我想分析一下 player 的自我修養。

一個合格的 player,應該擁有四個作風

  • 有限
  • 務實
  • 慎重
  • 客觀

這四個詞非常簡單,但是一般人根本做不到。

0x1:有限

你可能終生都會參加各種博弈,但每一次具體的博弈,都不是決定終生的。博弈是有限的遊戲。這一局不論是贏是輸,既不會影響你是誰,也不會影響你會成爲誰,你還是你。

傳統的社會規範是一說對抗就是了不得的大事,就好像造反一樣,贏了就要當皇帝,輸了就是謀逆的死罪。現代社會的博弈其實更像是體育比賽,場上是對手,場下還可以交朋友。這個訂單你拿到了我沒拿到,沒關係咱倆不用互刪微信,以後該怎麼交往還怎麼交往。

哪怕咱倆是競選美國總統,我強烈反對你的政治理念,但是你當選也就當四年,我可以接受。我甚至還要打電話向你承認我競選失敗,對你表示祝賀。我甚至會在未來四年聽從你這個總統的指揮。文明社會都是有限戰,不是超限戰。

Player 身份只是我們衆多身份中的一個,博弈不是人生的全部。能接受失敗的人,纔有資格爭取勝利。

幼兒園老師教小孩玩遊戲,首先應該教的不是怎麼贏,而是在發現自己要輸了的情況下不掀桌子,繼續玩下去。三個人下跳棋,你掀桌子別人就沒法玩了,那下次誰還願意跟你玩呢?不但要玩下去,最好還要跟對手覆盤切磋。贏了就忘乎所以,輸了就哭天搶地,那是最土的行爲。

參加博弈不一定非得贏不可。如果對手不犯錯誤,納什均衡的本質是平局。遵守規則,接受失敗,尊重對手,這樣的人才敢於多參加博弈,才能在每次博弈之中保全自己,纔有可能成爲優秀的 player。

0x2:務實

我們中國流行文化中有個特別不好的東西,就是喜歡比“境界”。人們總愛幻想,贏還不行,還得贏出高境界纔行。

《孫子兵法》有一句叫“百戰百勝,非善之善也;不戰而屈人之兵,善之善者也”,這句話本來說的沒問題,但是因爲被後世文人過度發揮,現在可以說已經成了中國文化的糟粕。歷來打仗沒有不靠硬軍事實力的,但是就有很多文人,認爲自己的三寸不爛之舌能抵得上百萬大軍。

博弈的最高境界……不是“不博弈”。幻想不戰而屈人之兵、什麼以德服人,本質上是把對抗變成了文人比美。

怎麼打纔算美呢?靠武器好取勝肯定是不美,你看人家東方不敗是“飛花摘葉皆可傷人”,人家獨孤求敗是“草木竹石皆可爲劍”。甚至最高境界還要做到“無劍”、“以神馭劍”……真實世界裏有哪位高手是這麼打仗的,梅西能不能用眼神射門?又或者梅西並不是天下最厲害的球員,天下最厲害的球員其實是在巴薩俱樂部掃地的一位老人?

你辛辛苦苦地正在備戰,他給你來一句還有一種更高的境界,這不荒唐嗎?把最不可能變成可能,是很有戲劇性的幻想,但參加博弈你得尊重比賽。

博弈論不是研究把不可能變成可能,而是怎麼實現最可能。真實世界裏的高手都需要給合作者正確的預期,哪有刻意隱瞞高手身份的?

新手常常有不切實際的幻想。曾經有很多數學家和物理學家成立了投資公司,在華爾街炒股。如果你認爲你連理論物理都能玩轉,炒股等於是降維打擊,你會遭到慘痛的失敗。

“降維打擊”是個幻想。任何成熟的領域都根本沒有給你降維打擊的機會。如果你以爲你知道華爾街不知道的,那最大的可能是你不知道自己不知道。現在大多數去華爾街的數學和物理學博士是給別人做量化分析打工的。

0x3:慎重

Player 是利益攸關的人。如果你的言行會牽扯到利益,你的作風就會是慎重的。

中國有句話叫“文人相輕”,美國其實也不例外。我們看那些公共知識分子、大學裏的教授,經常互相攻擊,有時候能吵得很難看。中國人民的老朋友亨利·基辛格,對這種現象有個精準的評論,

“學術界的政治鬥爭之所以這麼惡劣,恰恰是因爲涉及到的利益太小了。”

說白了就是文人相爭都是打嘴仗而已,誰勝誰負不值得嚴肅對待。基辛格這句話可能是受到了美國政治學家華萊士·塞爾(Wallace Sayre)的啓發,現在這個說法被總結成了“賽爾定律”,

任何爭論中,感情的強烈程度和所涉及到利益的價值成反比。

作爲 player,你不能輕易挑起爭端,不能輕易表態,不能輕易透露相關信息。你要是有影響,就得注意影響。而且你最好時刻都注意言行,平時也把謹慎做成一個範兒。

0x4:客觀

你注意到沒有,中國運動員接受記者採訪,幾乎從來都不用“我”這個詞,他們都是用“自己”這個詞來指代自己。比如說“今天教練的安排如何如何,上場之後自己如何如何,自己今天也比較有信心吧……”

很可能平時訓練的時候教練就不用“你”來指代隊員,“自己”是個特指的詞。“自己”是個第三人稱。與“自己”相對的是對手、隊友、裁判和教練,“自己”是這些 players 中的一個。這是一個跳出自我看自我的客觀視角。這是把作爲 player 的自我和其他自我區分開來。這是“無我”。

參加博弈,其實就是老老實實地考慮這些因素,

  • 1. 這個博弈是什麼,我想要什麼;
  • 2. 我現在有什麼,我可以放棄什麼;
  • 3. 對手的情況

你輸入相關的條件,尋求一個限制條件下的最優解。這就好像是做一道數學題。而人們平常的思維習慣,是順着自己的感情波動,從情感最強烈的地方開始浮想聯翩,渴望這個擔心那個,根本就不是分析問題。

具體問題具體分析,其實是個非常高的要求,一般人總是從自己的“人設”出發做事。比如我們假設有一箇中國的高科技公司,因爲被外國懷疑不當使用了技術,而受到調查,現在國際輿論對我們不利。那麼在這種情況下如果我們要在國外搞媒體公關,應該怎麼做呢?

人的本能是從自己的視角說話:我們是一個了不起的中國公司,我們的員工付出過艱苦的努力,我們公司現在無比強大,你們服不服吧……,你這麼想當然可以,但問題是你想從這次公關中得到什麼呢?你想得到的是公司在國外的核心利益不受侵害,是對方的市場,是對方的認可,哪怕對方的同情都行。

正確的應對是考慮對方怎麼想。管用的公關必須站在對方視角說話,先同步,才能領導。

善爲士者不武,善戰者不怒,善勝敵者不與,善用人者爲之下。Player,那是有氣質的。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章