在某個美麗的校園裏,小扎喜歡上了班花小美,暗戀了很久終於想鼓起勇氣追小美。
但是小扎知道自己長得不帥,不是富二代,成績也不是很好,追小美這件事,小紮在心裏估算了下,成功率大概只有5%,也就是P(追上小美)= 5%,心疼小扎一秒鐘。
新學期到了,班主任說大家要重新調座位了,這次爲了促進男女同學互相好好學習,特地安排男女同學一起坐。很多男同學表面上不樂意,心裏樂開了花。小扎立馬算算了,和班花小美同桌的概率大概是P(和小美同桌)= 10%。
過了幾天,班主任果然把小扎和小美安排坐在了一起,小扎難掩內心的激動,對追上小美的信心大增,重新評估了追上小美的概率爲30%。
在某個特定條件下的概率爲條件概率
表示爲P(追上小美 | 和小美同桌)= 30%
即在和小美同桌的前提條件下,追上小美的概率是30%,這裏和小美同桌就是追上小美的條件概率。
小扎原來追上小美的概率是P(追上小美)= 5%,但是和小美成爲同桌後,近水樓臺先得月,追上小美的概率就變成P(追上小美 | 和小美同桌)= 30%,大大提高了概率。
條件概率對事件的影響很大,某件事情本來概率很低,但是具備了某個條件後就很可能會發生。
同樣的原來的大概率的事件,在發生了某件事後,也可能就不會發生了。
瞭解條件概率,對我們的認知很重要,有些事情看似不可能,但是具備了一定的條件之後,概率就大大增加了。
如下圖,事件B發生的概率本來比較小,但是事件A發生了以後,事件B的概率隨着新近出現的事件A而發生改變了,事件B的概率重新評估後,變大了。
我們的觀點應該隨着新近出現的事實而發生改變。
我們知道了P(追上小美 | 和小美同桌)的概率,但是如果我們要算P(和小美同桌 | 追上小美)的概率該怎麼算呢?就是小扎先追上小美,然後小扎再和小美同桌的概率?
我們先看一下,如果要讓追上小美,和小美同桌兩件事同事發生需要怎麼做?
P(追上小美 ,和小美同桌)代表追上小美 ,和小美同桌這兩件事同時發生的概率。
我們可以分兩步看
-
先和小美同桌
-
和小美同桌後再追上小美
P(追上小美 ,和小美同桌)= P(和小美同桌)* P(追上小美 | 和小美同桌)
換一種視角
-
先追上小美
-
追上小美后再和小美同桌
P(追上小美 ,和小美同桌)= P(追上小美)* P(和小美同桌 | 追上小美)
可以簡單的推導一下:
P(和小美同桌)* P(追上小美 | 和小美同桌)
= P(追上小美 ,和小美同桌)
= P(追上小美)* P(和小美同桌 | 追上小美)
於是就有:
P(追上小美)* P(和小美同桌 | 追上小美)= P(和小美同桌)* P(追上小美 | 和小美同桌)
等式兩邊都除以P(追上小美)得到:
P(和小美同桌 | 追上小美) = P(和小美同桌)* P(追上小美 | 和小美同桌)/ P(追上小美)
我們令
A = 和小美同桌
B = 追上小美
代入上面的公式就得到了著名的貝葉斯公式:
怎麼樣,貝葉斯公式的推導是不是很簡單?
貝葉斯公式有什麼用呢?
一般來講P(A)和P(B)的概率是比較容易得到的,P(A|B)和P(B|A)的概率,有一個是比較容易得到的,另一個比較難得到。貝葉斯公式最大用處就是通過容易得到的概率去計算那個比較難得到的概率。
上面的例子中, P(追上小美 | 和小美同桌)即先和小美同桌然後追上小美的概率相對比較容易得到,毛估估算了一下,大概是30%。
但是 P(和小美同桌 | 追上小美)即先追上小美,然後和小美同桌的概率就相對來說比較難猜了,我們代入公式算一下:
P(和小美同桌 | 追上小美) =
P(追上小美 | 和小美同桌)* P(和小美同桌) / P(追上小美) = 0.3 * 0.1 / 0.05 = 0.6 = 60%
這個概率蠻高的喲,有沒有出乎你的意外?
不過這個概率的前提條件是先追上小美,由於追上小美的概率比較低只有5%,其實這裏的60%和追上小美的概率綜合一下,兩件事同時發生的概率也不高。
當然,上面的例子是我瞎扯的,舉個現實中的例子。
艾滋病的檢測準確率爲99.9%,即艾滋病患者有99.9%會檢驗出陽性,只有0.01%的正常人會誤診爲陽性,這個準確率很高了。
假設中國的艾滋病發病率爲1/10000,即萬分之一。
現在我們要算一下,檢驗出陽性後是艾滋病的概率是多少?
我們先猜猜看,既然檢測的準確率爲99.9%這麼高,那麼檢測出陽性後,大概率應該就是艾滋病了吧?結果可能會讓你大跌眼鏡,畢竟直覺還是很不靠譜的。
下面請貝葉斯公式出場:
P(A):表示檢測出陽性的概率,爲艾滋病患者檢出陽性的概率加上正常人被誤診爲陽性的概率,
爲1/10000 * 99.9% + 9999/10000 * 0.01% = 0.00019989
P(B):表示艾滋病的發病率,
爲 1/10000 = 0.0001
P(A | B):表示艾滋病患者檢測出陽性的概率,
爲 99.9% = 0.999
帶入貝葉斯公式計算:
P(B | A)= P(A | B)* P(B)/ P(A)= 0.999 * 0.0001 / 0.00019989 = 0.49977488 約等於 50%
是不是很意外?
你可能會說,準確率才50%,那不是和瞎猜的概率一樣嗎?那測個屁啊,出現這種情況的原因是艾滋病的發病率太低了,只有萬分之一。
對這種初次檢測準確率較低的方法,只需要做第二次檢測就可以大幅度提升判斷,這也是爲什麼艾滋病檢測第一次呈陽性的人,還需要做第二次檢測,第二次依然是陽性的還需要送交國家實驗室做第三次檢測。
貝葉斯公式在生活中已經有了廣泛的應用,例如:垃圾郵件的篩選,人工智能的算法等等。
“喂,您好,是班主任老師嗎?我是小扎。”
“小扎你好,找我有什麼事嗎?”
“老師,我想和小美坐一起,小美的數學學得好,我和她坐一起能好好補補數學。”
“好吧。”
“謝謝老師,我一定會好好學習的。”