自己救自己系列,不然我這個渣渣就要沒工作了。
我只是個木得感情的搬運機器,以下內容都附有原鏈接地址,你不想我搬運的話,可以聯繫我刪除好勒。
紅色加粗是我見了好多次,感覺經常會考得點。
一、樸素貝葉斯介紹
樸素貝葉斯我看的時候各種奇怪的名詞暈乎乎的,後來發現主要把握住他的流程即可。
1)由數據集T, 求的先驗概率 。簡單說就是每一類佔所有樣本比重。
2)求條件概率分佈 。即 情況下,x每個屬性對應的概率。
3) 求聯合概率分佈 , 通過上面兩式相乘即可得。
4)現在就可以預測了。給定一個X,預測其類別,通過
這時候你會發現需要的東西前三步都已經提供了,然後該式子化簡,在求後驗概率最大,即
這個也很容易理解。第一項 在第一步已經有了, 後一項就是 的情況下,X爲每種屬性x(j)的概率。
然後這四步看一下《統計學習方法》上的例題就會很清楚,下面👇這個鏈接中也有該例題。
教程依舊推薦先看《統計學系方法》,或者這位北大小天才的 https://www.pkudodo.com/2018/11/21/1-3/
推薦這個博客還是因爲他講的和《統計學習方法》很像,且有代碼。
二、相關問題
1、樸素貝葉斯爲什麼“樸素naive”?
因爲在計算條件概率分佈p(X|Y)時,樸素貝葉斯做了一個很強的條件獨立假設(當Y確定時,X的各個分量取值之間相互獨立)
2、樸素貝葉斯屬於生成式模型
與判別式模型區別是:
生成式:生成模型是先從數據中學習聯合概率分佈,然後利用貝葉斯公式求得特徵和標籤對應的條件概率分佈。
包含:樸素貝葉斯、HMM、Gaussians、馬爾科夫隨機場
判別式:判別模型直接學習條件概率分佈,直觀的輸入什麼特徵就預測可能的類別。
包含:LR,SVM,神經網絡,CRF,Boosting
問題源自:https://www.nowcoder.com/ta/review-ml/review?tpId=96&tqId=32546&query=&asc=true&order=&page=115
3、樸素貝葉斯原理及推導過程
原理: 樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。對於給定的待分類項xxx,通過學習到的模型計算後驗概率分佈。
說人話就是兩點:貝葉斯定理、特徵條件獨立假設。
推導過程:簡單點就是上面樸素貝葉斯介紹的內容,複雜一點參考 https://www.jianshu.com/p/b6cadf53b8b8
4、寫出全概率公式&貝葉斯公式
全概率:就是表示達到某個目的,有多種方式,問達到目的的概率是多少?
全概率公式: 設事件是一個完備事件組,則對於任意一個事件C,若有如下公式成立:
貝葉斯:當已知結果,問導致這個結果的第i原因的可能性是多少?執果索因!
貝葉斯公式: 在已知條件概率和全概率的基礎上,貝葉斯公式是很容易計算的:
展開得:
答案抄自: https://blog.csdn.net/u010164190/article/details/81043856
問題自:https://mp.weixin.qq.com/s/5ZkwjtaVvDQmaZ6b9W3x6g
5、最大似然估計和最大後驗概率的區別?
0)對 而言,若x未知,已知,則爲概率函數, 描述對不同樣本x,其出現的概率。
若x已知,未知,則爲似然函數, 描述給定樣本X=x的情況下,參數爲真實值的可能性。
1)最大似然估計MLE。即爲求一組能夠使似然函數最大的參數,即
舉個例子。在上文貝葉斯介紹的第1)步,需要求, 此時已知數據集T中(x,y)分佈,
求Y對應於每一類的先驗概率,即可通過最大似然估計,得到:
2)最大後驗估計MAP。當MLE中參數 服從某種先驗概率時,就需要用最大後驗估計。
其基礎爲上文提到的貝葉斯公式,
MAP優化的就是一個後驗概率,即給定了觀測值以後使後驗概率最大:
3)更詳細的MLE、MAP和貝葉斯估計間的關係查看 https://blog.csdn.net/bitcarmanlee/article/details/81417151
其他博客上的問題見:https://www.cnblogs.com/zhibei/p/9394758.html