樸素貝葉斯算法面試問題彙總

原創

是暮涯啊

2020-07-07 11:16

自己救自己系列，不然我這個渣渣就要沒工作了。

我只是個木得感情的搬運機器，以下內容都附有原鏈接地址，你不想我搬運的話，可以聯繫我刪除好勒。

紅色加粗是我見了好多次，感覺經常會考得點。

一、樸素貝葉斯介紹

樸素貝葉斯我看的時候各種奇怪的名詞暈乎乎的，後來發現主要把握住他的流程即可。

1）由數據集T，求的先驗概率 $p\left ( Y=c_{k} \right ), k=1,2,...,K$ 。簡單說就是每一類佔所有樣本比重。

2）求條件概率分佈 $p\left ( X=x|Y=c_{k} \right )$ 。即 $Y=c_{k}$ 情況下，x每個屬性對應的概率。

3) 求聯合概率分佈 $p\left ( X,Y \right )$ , 通過上面兩式相乘即可得。

4）現在就可以預測了。給定一個X，預測其類別，通過

$p\left ( Y|X \right ) = \frac{p(X,Y)}{p(X)} = \frac{p(Y)p(X|Y)}{\sum p(Y)p(X|Y)}$

這時候你會發現需要的東西前三步都已經提供了，然後該式子化簡，在求後驗概率最大，即

$y=argmaxP(Y=c_{k})\prod_{j=1}^{n}P(X_{j}=x^{(j)}|Y=c_{k})$

這個也很容易理解。第一項 $P(Y=c_{k})$ 在第一步已經有了，後一項就是 $Y=c_{k}$ 的情況下，X爲每種屬性x(j)的概率。

然後這四步看一下《統計學習方法》上的例題就會很清楚，下面👇這個鏈接中也有該例題。

教程依舊推薦先看《統計學系方法》，或者這位北大小天才的 https://www.pkudodo.com/2018/11/21/1-3/

推薦這個博客還是因爲他講的和《統計學習方法》很像，且有代碼。

二、相關問題

1、樸素貝葉斯爲什麼“樸素naive”？

因爲在計算條件概率分佈p(X|Y)時，樸素貝葉斯做了一個很強的條件獨立假設（當Y確定時，X的各個分量取值之間相互獨立）

2、樸素貝葉斯屬於生成式模型

與判別式模型區別是：

生成式：生成模型是先從數據中學習聯合概率分佈,然後利用貝葉斯公式求得特徵和標籤對應的條件概率分佈。

包含：樸素貝葉斯、HMM、Gaussians、馬爾科夫隨機場

判別式：判別模型直接學習條件概率分佈,直觀的輸入什麼特徵就預測可能的類別。

包含：LR，SVM，神經網絡，CRF，Boosting

問題源自：https://www.nowcoder.com/ta/review-ml/review?tpId=96&tqId=32546&query=&asc=true&order=&page=115

3、樸素貝葉斯原理及推導過程

原理：樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。對於給定的待分類項xxx，通過學習到的模型計算後驗概率分佈。

說人話就是兩點：貝葉斯定理、特徵條件獨立假設。

推導過程：簡單點就是上面樸素貝葉斯介紹的內容，複雜一點參考 https://www.jianshu.com/p/b6cadf53b8b8

4、寫出全概率公式&貝葉斯公式

全概率：就是表示達到某個目的，有多種方式，問達到目的的概率是多少？

全概率公式：設事件是一個完備事件組，則對於任意一個事件Ｃ，若有如下公式成立：

貝葉斯：當已知結果，問導致這個結果的第i原因的可能性是多少？執果索因！

貝葉斯公式：在已知條件概率和全概率的基礎上，貝葉斯公式是很容易計算的：

展開得：

答案抄自： https://blog.csdn.net/u010164190/article/details/81043856

問題自：https://mp.weixin.qq.com/s/5ZkwjtaVvDQmaZ6b9W3x6g

5、最大似然估計和最大後驗概率的區別?

0）對 $p(x|\theta )$ 而言，若x未知， $\theta$ 已知，則爲概率函數，描述對不同樣本x，其出現的概率。

若x已知， $\theta$ 未知，則爲似然函數，描述給定樣本X=x的情況下,參數 $\theta$ 爲真實值的可能性。

1）最大似然估計MLE。即爲求一組能夠使似然函數最大的參數，即

$\hat{\theta }_{MLE}(x) = arg max p(x|\theta )$

舉個例子。在上文貝葉斯介紹的第1）步，需要求 $p\left ( Y=c_{k} \right ), k=1,2,...,K$ ，此時已知數據集T中（x，y）分佈，

求Y對應於每一類的先驗概率，即可通過最大似然估計，得到：

$p\left ( Y=c_{k} \right ) = \frac{\sum_{N}^{i=1}I(y_{i}=c_{k}))}{N}, k=1,2,...,K$

2）最大後驗估計MAP。當MLE中參數 $\theta$ 服從某種先驗概率時，就需要用最大後驗估計。

其基礎爲上文提到的貝葉斯公式，

MAP優化的就是一個後驗概率，即給定了觀測值以後使後驗概率最大：

3）更詳細的MLE、MAP和貝葉斯估計間的關係查看 https://blog.csdn.net/bitcarmanlee/article/details/81417151

其他博客上的問題見：https://www.cnblogs.com/zhibei/p/9394758.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

樸素貝葉斯算法面試問題彙總

一、樸素貝葉斯介紹

二、相關問題

樸素貝葉斯算法面試問題彙總

鏈表的基本定義與使用方法總結

Alexnet，Vgg, GoogleNet，resnet等常見模型torch版本代碼github地址

C++ 或運算符運行函數問題

沒有程序運行但是顯卡佔用情況---殺死pytorch佔用的殭屍進程

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結