學習任務:
目錄:
- 從基礎概率推導貝葉斯公式,樸素貝葉斯公式(1)
- 學習先驗概率(2)
- 學習後驗概率(3)
- 學習LR和linear regreeesion之間的區別(4)
- 推導sigmoid function公式(5)
一、從基礎概率推導貝葉斯公式,樸素貝葉斯公式
- 條件概率公式:
設A,B是兩個事件,且P(B)>0,則在事件B發生的條件下,事件A發生的條件概率(conditional probability)爲:P(A∣B)=P(AB)/P(B) ,公式變形爲:
P(AB)=P(A∣B)P(B)=P(B∣A)P(A),進一步推廣得:對於任何正整數n≥2,當P(A1A2...An−1)>0 時,有:P(A1A2...An−1An)=P(A1)P(A2∣A1)P(A3∣A1A2)...P(An∣A1A2...An−1)
- 全概率公式:
如果事件組B1,B2,… 滿足
1.B1,B2…兩兩互斥,即Bi∩Bj=∅,i̸=j , i,j=1,2,....,且P(Bi)>0,i=1,2,....;
2.B1∪B2∪....=Ω ,則稱事件組 B1,B2,...是樣本空間Ω的一個劃分;
設 B1,B2,...是樣本空間Ω的一個劃分,A爲任一事件,則
P(B)=i=1∑nP(B∣Ai)P(Ai)
- 貝葉斯公式:
已知P(A∣B)、P(B),求P(B∣A)的過程。
P(B∣A)=P(A)P(B∩A)=P(A)P(A∩B)
把P(A∩B)和P(A)分別替換得到:
P(B∣A)=P(A)P(A∣B)P(B)=P(A∣B)P(B)+P(A∣B’)P(B’)P(A∣B)P(B)
將公式形式化之後得到
P(Bi∣A)=∑i=1nP(A∣Bi)P(Bi)P(A∣Bi)P(Bi)
P(A∣B):在B條件下的事件A的概率,在貝葉斯定理中,條件概率也被稱爲後驗概率,即在事件B發生之後,我們對事件A概率的重新評估。
P(B∣A):在A條件下的事件B的概率,與上一條同理。
P(A)與P(B)被稱爲先驗概率(也被稱爲邊緣概率),即在事件B發生之前,我們對事件A概率的一個推斷(不考慮任何事件B方面的因素),後面同理。
P(B∣A)/P(B)被稱爲標準相似度,它是一個調整因子,主要是爲了保證預測概率更接近真實概率。
綜上貝葉斯定理表述爲: 後驗概率 = 標準相似度 * 先驗概率。
二、學習LR和linear regreeesion之間的區別
- LR和linear regreeesion之間的區別:(如表格所示)
problem: 爲什麼邏輯迴歸比線性迴歸好?
- 這主要是由於線性迴歸在整個實數域內敏感度一致,而分類範圍,需要在[0,1]之內。而邏輯迴歸就是一種減小預測範圍,將預測值限定爲[0,1]間的一種迴歸模型,其迴歸方程與迴歸曲線如下圖所示。邏輯曲線在z=0時,十分敏感,在z>>0或z<<0處,都不敏感,將預測值限定爲(0,1)。
- LR在線性迴歸的實數範圍輸出值上施加sigmoid函數將值收斂到0~1範圍, 其目標函數也因此從差平方和函數變爲對數損失函數, 以提供最優化所需導數(sigmoid函數是softmax函數的二元特例, 其導數均爲函數值的f∗(1−f)形式)。請注意, LR往往是解決二元0/1分類問題的, 只是它和線性迴歸耦合太緊, 不自覺也冠了個迴歸的名字(馬甲無處不在). 若要求多元分類,就要把sigmoid換成大名鼎鼎的softmax了。
- 首先邏輯迴歸和線性迴歸首先都是廣義的線性迴歸,其次經典線性模型的優化目標函數是最小二乘,而邏輯迴歸則是似然函數,另外線性迴歸在整個實數域範圍內進行預測,敏感度一致,而分類範圍,需要在[0,1]。邏輯迴歸就是一種減小預測範圍,將預測值限定爲[0,1]間的一種迴歸模型,因而對於這類問題來說,邏輯迴歸的魯棒性比線性迴歸的要好。
邏輯迴歸的模型本質上是一個線性迴歸模型,邏輯迴歸都是以線性迴歸爲理論支持的。但線性迴歸模型無法做到sigmoid的非線性形式,sigmoid可以輕鬆處理0/1分類問題。
三、推導sigmoid function公式
Sigmoid函數:g(z)=1+e−z1
由這個函數可得:當z趨於正無窮時,g(z)趨於1,而當z趨於負無窮時,g(z)趨於0。
對該函數求導有:g′(z)=g(z)(1−g(z))