盜竊、養狗與概率的故事

條件概率

假設有兩個隨機事件A、B,事件A發生的概率爲P(A),事件B發生的概率爲P(B),那麼事件B已經發生的條件下,事件A發生的概率記爲P(A|B),這就是條件概率。
計算條件概率的公式很簡單,可以寫成:這裏寫圖片描述
即,A和B事件同時發生的概率/B事件發生的概率。

條件概率的應用

用下面的例子來進一步說明一下:
一座別墅在過去的 20 年裏一共發生過 2 次被盜,別墅的主人有一條狗,狗平均每週晚上叫 3 次,那麼:在狗叫的時候發生入侵的概率是多少?
我們定義狗叫爲A事件,盜竊爲B事件,已經知道,P(A) = 3/7,P(B) = 2/(20*365) = 2/7300。假設狗叫和盜竊爲兩個獨立事件,也就是互相之間沒有任何關聯的話,那麼P(AB)的值爲P(A)x P(B),根據上面的條件概率公式,就可以計算出P(A|B)和P(B|A)的值。

推導貝葉斯公式

接下來,我們把條件概率的公式變形一下:P(AB) = P(A)xP(B|A)=P(B)xP(A|B),可以導出,P(B|A) = P(A|B) x P(B) / P(A),這個就是貝葉斯公式了。
你也可以說,貝葉斯公式就是條件概率,但貝葉斯公式更側重強調兩個條件概率P(B|A) 和 P(A|B)之間的關係。接下來看看貝葉斯公式的應用場景,還是拿上面的例子來說明。

貝葉斯的應用

我們知道,現實生活中盜竊和狗叫兩個事件肯定會有聯繫的,有盜竊發生時,狗叫的概率會比平時大很多。這裏假設當地警察根據多年經驗,判斷出來這個概率爲0.9,我們前面定義了狗叫爲A事件,盜竊爲B事件,那麼0.9其實就是 P(A|B)的值 。然後警察把這個概率,告訴了當地居民,居民根據貝葉斯公式算出了P(B|A),也就是狗叫時,發生盜竊的概率,P(B|A) = 0.9*(2/7300) / (3/7) = 0.00058。好了,這下我們知道了,發生盜竊的概率爲2/7300,也就是0.00027,而狗叫時發生盜竊的概率比狗不叫時要高出一倍。

假設過去經驗表明,平均一年居民因爲盜竊而損失1萬元的話,那隻要養條狗,然後在每次狗叫的時候起來看看,就可以減少一半的盜竊案,居民平均一年盜竊的平均損失也就可以降爲5000元。所以,你們自己算算賬吧,養條狗值不值?
所以說,數學纔是人生導師啊!

詞性標註

機器學習中的多分類可以使用貝葉斯來實現。這裏舉個例子。

自然語言處理中經常涉及到詞性標註,這裏使用機器學習中的貝葉斯分類來做。
首先準備大量的語料,每一條語料幾個按自然語言順序排列的詞的詞名及詞性。
如:
推進:動詞——改革:名詞
我們:名稱——的:助詞——改革:名字
需要:副詞——改革:動詞——制度:名詞
……
大量語料輸入貝葉斯分類訓練器,計算貝葉斯分類模型中的概率分佈,最終生成詞性標註模型。
當有新的語料需要預測時,比如:艱難:形容詞——的:助詞——改革:?
模型判斷出,“改革”在此處爲名詞。

發佈了166 篇原創文章 · 獲贊 41 · 訪問量 184萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章