五分鐘瞭解先驗概率和後驗概率
本文摘自我的公衆號【車子的心智探索】
歡迎關注我!
不理解先驗概率和後驗概率?莫慌,本文可以幫你。
從面積的角度看概率
在說正題之前,咱們從面積的角度認識一下概率。
拿擲骰子來說,每個點的概率是相等的,因爲總概率是 1,所以每個點數的概率是 1/6。我們用格子的大小來表示概率,那麼擲骰子的概率圖是這樣的:
如果把擲出的點數小於等於 4 記作事件 F,問你 P(F) 等於多少,你會說等於 4/6 = 2/3.
如果用面積圖來算呢?把對應點數的面積加起來就可以。
四個方塊的面積之和 = 1/6 * 4 = 2/3
某種可能性消失
我洗好了 52 張撲克牌擺在你面前,撲克牌背面朝上。如果我問你,最上面這張是黑桃的概率是多少?你肯定會說四分之一。因爲撲克牌共有四種花色,每一種花色的可能性都是相等的。
但是,我趁你不注意的時候偷看了一眼最上面的牌,然後告訴你這張牌是黑色的。這時候我再問你,最上面這張是黑桃的概率是多少?
因爲已經確定花色是黑色,所以紅桃或方塊的可能性不存在了,只有可能是黑桃或梅花,所以,你推測這張牌是黑桃的概率爲二分之一。
畫圖解釋就是:
從面積角度看,整個過程是這樣的:
當得知花色是黑色的時候,表示紅桃和方塊的兩個方形不見了,只剩下黑桃和梅花,因爲概率之和總是 1,所以把它們各自的面積向上伸展,直到總和爲 1。注意,在伸展的同時要保持黑桃和梅花的面積比例不變,於是結果就是各佔 1/2。
當然,也可以更簡單,既然要保持黑桃和梅花的面積比例不變,不妨假設都伸展 k 倍。
又因爲總面積爲 1,所以黑桃的面積是 1/2.
好了,進入正題。
先驗概率與後驗概率
看這樣一個問題:
假設某種癌症的患病率爲0.1%(0.001)。有一個簡易的方法能夠檢查出是否患病,但是不能百分之百檢查出——患上這種癌症的人中有 95%(0.95)的概率被診斷爲陽性;另一方面,健康人羣也有 2%(0.02)的可能性被誤診爲陽性。如果你的檢查結果是陽性,請問你實際患上這種癌症的概率爲多少?
這裏的患病率就是先驗概率。
如果要在檢查前推測自己是否罹患這種癌症,概率圖如下。左側條形的面積是 0.001,右側矩形的面積是 0.999,分別表示得癌症的概率和健康的概率。
通過流行病學數據可知,這種癌症的罹患率爲 0.001。也就是說,1000 人中有 1 人罹患這種癌症。在沒有任何個人信息的情況下,你屬於圖中左側世界的概率是 0.001,屬於右側世界的概率是 0.999。
按照題目信息,可以製作一個表格。
先看癌症患者這行,在患癌症的情況下,檢查結果呈陽性的概率爲 0.95。也就是說,如果你真得了癌症,能檢查出來的概率爲 95%。還有 5% 的概率查不出來。
再看健康者這行,如果你是健康人,那麼誤診爲陽性的概率爲 2%,準確診斷爲陰性的概率是 98%。
所以,檢查存在着誤診的風險。所謂的風險包含以下兩種情況:
- 身患癌症,卻診斷沒有患病
- 健康,卻誤診爲患病
在前面那張圖的基礎上,我們可以根據陽性率和陰性率繼續分割。
左側是患癌症這一類別,把這個條形按照面積之比 0.95:0.05 來分割 ,那麼患癌呈陽性的概率是 0.001*0.95;同理,可以算出其他三部分的概率(面積)。
當你做完檢查,肯定屬於以下四種可能性中的一種:
- 患癌並呈現陽性(左上區域)
- 患癌並呈現陰性(左下區域)
- 健康並呈現陽性(右上區域)
- 健康並呈現陰性(右下區域)
再回到原題,你的檢查結果呈陽性,於是之前的 4 種情況就變成 2 種了。
同前面撲克牌問題的計算方法類似,你患癌症的概率是 0.095% ÷ (0.095% + 1.998%)= 0.045(保留三位小數)。
從這個結果可知,在得知陽性這一檢查結果的情況下,你罹患這種癌症的概率約爲 4.5% ,這便是後驗概率。
頻率樹的方法
還有一種方法值得介紹,就是頻率樹。假設總人口是 10 萬人,根據各種情況,最後可以生成一棵樹。
是不是這種方法更直觀呢?
-----【End】-----
參考資料
小島寬之.(2018).統計學關我什麼事:生活中的極簡統計學.北京時代華文書局.