樸素貝葉斯(公式推導證明)

貝葉斯 Treatment

  • 最大後驗估計 Maximum a Posterior Estimate(MAP)
    參數的先驗:
    p0(q0jα1,α2)=Beta(α1,α2)=Γ(α1+α2)Γ(α1)Γ(α2)q0jα11(1q0jα21)p_0(q_{0j}|\alpha_1, \alpha_2) = Beta(\alpha_1, \alpha_2) =\frac{\Gamma(\alpha_1 + \alpha_2)}{\Gamma(\alpha_1)\Gamma(\alpha_2)}q_{0j}^{\alpha_1-1}(1-q_{0j}^{\alpha_2-1})

α0=1\alpha_0=1並且α1=1\alpha_1=1上面的分佈是均勻分佈。

q^=argmaxqlogp(qXi,yi)=argmaxq(logp0(q)+logp(Xi,yiq))\hat{q} = arg \underset{q}{max} log p(q|{X_i,y_i}) = arg \underset{q}{max}(logp_0(q) + logp({X_i, y_i|q}))
使用拉格朗日算子求上面式子的偏導數
q0j^=N0j+α11N0+α1+α22\hat{q_{0j}}=\frac{N_0^j+\alpha_1-1}{N_0+\alpha_1 + \alpha_2-2}
q1j^=N1j+α11N1+α1+α22\hat{q_{1j}}=\frac{N_1^j+\alpha_1-1}{N_1+\alpha_1 + \alpha_2-2}

對於連續的XiX_i進行分類,例如圖像的像素,如何使用貝葉斯估計呢,我們可以使用GBN(高斯貝葉斯估計),假設XiX_i的方差是一樣的。
P(XiY=y)=N(μiy,σi2)P(X_i|Y=y)=N(\mu_{iy},\sigma_i^2)
分類邊界:(兩類的概率是相等的)
logi=1dP(XiY=0)i=1dP(XiY=1)=0log\frac{\prod_{i=1}^{d}P(X_i|Y=0)}{\prod_{i=1}^{d}P(X_i|Y=1)}=0
得到
log1ππ+iμi12μi022σi2+iμi1μi0σi2xi=0log\frac{1-\pi}{\pi} + \sum_{i} \frac{\mu_{i1}^2-\mu_{i0}^2}{2\sigma^2_{i}} + \sum_{i} \frac{\mu_{i1}-\mu_{i0}}{\sigma^2_{i}}x_i=0 等價於
線性分類邊界w0+iwixi=0w_0 + \sum_iw_ix_i=0
但是當σ1σ2\sigma_1 \neq \sigma_2 不是線性的分類邊界,是非線性的分類邊界。

理解GNB的假設
p(y=1x,μ,,π)=p(y=1,xμ,,π)p(xμ,,π)p(y=1|x,\mu,\sum,\pi) = \frac{p(y=1,x|\mu, \sum, \pi)}{p(x|\mu,\sum,\pi)}
在貝葉斯估計前提下
p(y=1x,μ,,π)=11+p(y=0,xμ,,π)p(y=1,xμ,,π)=11+(1π)iN(xiμi0,σi2)πiN(xiμi1,σi2)=11+exp(wTxw0)p(y=1|x,\mu,\sum,\pi) = \frac{1}{1+\frac{p(y=0,x|\mu,\sum,\pi)}{p(y=1,x|\mu,\sum,\pi)}}=\frac{1}{1+\frac{(1-\pi)\prod_iN(x_i|\mu_{i0},\sigma_i^2)}{\pi\prod_iN(x_i|\mu_{i1},\sigma_i^2)}} = \frac{1}{1+exp(-w^Tx-w_0)}

sigmoid函數是 11+exp(x)\frac{1}{1+exp(-x)}
其實就是線性函數然後sigmoid函數,多分類可以加softmax 函數。

上面的是生成式的分類,得到y^=argmaxp(X,Y=y)/p(X)\hat{y} = argmaxp(X,Y=y)/p(X)
p(X)可以省略。學習x的分佈,定義的是x,y的聯合分佈。
但是可以直接學習y^=argmaxyP(Y=yX)\hat{y}=\underset{y}{argmax}P(Y=y|X)得到判別式分類,直接從數據學習P(Y|X),沒有P(X)的學習。SVM是判別式的方法。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章