【自然語言處理】概率論基礎筆記

原創

七彩吞天蟒

2020-06-02 03:38

諸葛亮下來戰術，約我軍明日決戰，如何對敵？

貝葉斯公式推導

條件概率

$P(A|B) = \frac{P(AB)}{P(B)}$

也可以是

$P(B|A) = \frac{P(AB)}{P(A)}$

所以

$P(AB) = P(A) \times P(B|A) = P(B) \times P(A|B)$

合在一起可以推出

$P(A|B) = \frac{P(A) \times P(B|A)}{P(B)}$

全概率公式

$P(A) = P(B) \times P(A|B) +P(C) \times P(A|C) + P(D) \times P(A|D) + ...$

先驗概率

是指根據以往經驗和分析得到的概率

如：拋硬幣正面的概率；
如：今天下雨的概率；
如：腦殘中頭痛的概率（易於調查，可計算）。
舉例：

假設有兩個各裝了100個球的箱子，甲箱子中有70個紅球，30個綠球，乙箱子中有30個紅球，70個綠球。假設隨機選擇其中一個箱子，從中拿出一個球記下球色再放回原箱子，如此重複12次，記錄得到8次紅球，4次綠球。問題來了，你認爲被選擇的箱子是甲箱子的概率有多大？

調查結果顯示，大部分人都低估了選擇的是甲箱子的概率。根據貝葉斯定理，正確答案是96.7%。下面容我來詳細分析解答。

剛開始選擇甲乙兩箱子的先驗概率都是50%，因爲是隨機二選一（這是貝葉斯定理二選一的特殊形式）。即有：

$P(甲) = 0.5， P(乙) = 1 - P(甲)$
這時在拿出一個球是紅球的情況下，我們就應該根據這個信息來更新選擇的是甲箱子的先驗概率：

$P(甲|紅球1) = \frac{P(甲)\times P(紅|甲)}{P(紅)} = \frac{P(甲)\times P(紅|甲)}{P(甲)\times P(紅|甲) + P(乙)\times P(紅|乙)}$

$P(紅球|甲)$ ：甲箱子中拿到紅球的概率
$P(紅球|乙)$ ：乙箱子中拿到紅球的概率

因此在出現一個紅球的情況下，選擇的是甲箱子的先驗概率就可被修正爲：
$P(甲|紅球1) = \frac{0.7 \times 0.5}{0.7 \times 0.5 + 0.3 \times 0.5} = 0.7$

即在出現一個紅球之後，甲乙箱子被選中的先驗概率就被修正爲：

$P(甲) = 0.7$
$P(乙) = 1 - P(甲) = 0.3$

抽到紅球 1 --> 抽到的是甲箱子的概率: 0.700000
抽到紅球 2 --> 抽到的是甲箱子的概率: 0.844828
抽到紅球 3 --> 抽到的是甲箱子的概率: 0.927027
抽到紅球 4 --> 抽到的是甲箱子的概率: 0.967365
抽到紅球 5 --> 抽到的是甲箱子的概率: 0.985748
抽到紅球 6 --> 抽到的是甲箱子的概率: 0.993842
抽到紅球 7 --> 抽到的是甲箱子的概率: 0.997351
抽到紅球 8 --> 抽到的是甲箱子的概率: 0.998863

抽到綠球 1 --> 抽到的是甲箱子的概率: 0.997351
抽到綠球 2 --> 抽到的是甲箱子的概率: 0.993842
抽到綠球 3 --> 抽到的是甲箱子的概率: 0.985748
抽到綠球 4 --> 抽到的是甲箱子的概率: 0.967365

後驗概率

後驗概率是信息理論的基本概念之一。在一個通信系統中，在收到某個消息之後，接收端所瞭解到的該消息發送的概率稱爲後驗概率。果------>因

如：拋了100次硬幣，100次正面，求硬幣正反面均勻的概率；
如：下雨了，求有烏雲的概率；
如：頭痛了，是腦殘的概率。

最大似然估計

根據先驗概率，求得頭痛中，感冒的概率，發燒的概率，腦殘的概率

結果頭痛了感冒的概率最大，則判斷人是感冒了，則成爲最大似然估計

聯合概率

在概率論中，聯合概率是指在多元的概率分佈中多個隨機變量分別滿足各自條件的概率。
舉例說明：假設X和Y都服從正態分佈，那麼 $P\{X<4,Y<0\}$ 就是一個聯合概率，表示 $X<4,Y<0$ 兩個條件同時成立的概率。
聯合概率：表示兩個事件共同發生的概率。A與B的聯合概率表示爲 $P(AB)$ 或者 $P(A,B)$ ,或者 $P(A∩B)$ 。

條件概率

條件概率是指事件A在另外一個事件B已經發生條件下的發生概率。
條件概率表示爲： $P(A|B)$ ，讀作“在 $B$ 的條件下 $A$ 的概率”。
條件概率可以用決策樹進行計算。

矩估計

令抽樣樣本的均值 $\bar{X}$ 等於期望 $EX$ ，然後求出分佈參數θ，這個值稱爲θ的矩估計

最大似然估計

一個分佈參數θ，就是說，分佈確定了，但是分佈的一個參數，我們無法獲得，但是可以通過抽樣樣本，我們來估計這個值，所以我們就能從中找到一個關於θ的估計。最大似然估計會尋找關於 θ的最可能的值（即，在所有可能的θ取值中，尋找一個值使這個採樣的“可能性”最大化）【把每個樣本概率乘在一起，形成一個關於θ的函數，然後求函數的最大值時θ的取值，這個使可能性最大的值即被稱爲θ的最大似然估計】。這種方法正好同一些其他的估計方法不同，如θ的非偏估計，非偏估計未必會輸出一個最可能的值，而是會輸出一個既不高估也不低估的θ值。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【自然語言處理】概率論基礎筆記

諸葛亮下來戰術，約我軍明日決戰，如何對敵？

貝葉斯公式推導

全概率公式

先驗概率

後驗概率

最大似然估計

聯合概率

條件概率

矩估計

最大似然估計

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

【推薦算法】PersonRank算法原理●Python實現

【概率圖模型】從貝葉斯網絡到條件隨機場

【基礎算法】受限玻爾茲曼機●RBM

從貝葉斯網絡到條件隨機場

【自然語言處理】概率論基礎筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結