李宏毅機器學習 Machine_Learning_2019_Task4

學習任務:

目錄:

  • 從基礎概率推導貝葉斯公式,樸素貝葉斯公式(1)
  • 學習先驗概率(2)
  • 學習後驗概率(3)
  • 學習LR和linear regreeesion之間的區別(4)
  • 推導sigmoid function公式(5)

一、從基礎概率推導貝葉斯公式,樸素貝葉斯公式

  • 條件概率公式:
    設A,B是兩個事件,且P(B)>0,則在事件B發生的條件下,事件A發生的條件概率(conditional probability)爲:P(AB)=P(AB)/P(B)P(A|B)=P(AB)/P(B) ,公式變形爲:
    P(AB)=P(AB)P(B)=P(BA)P(A)P(AB)=P(A|B)P(B)=P(B|A)P(A),進一步推廣得:對於任何正整數n≥2,當P(A1A2...An1)>0P(A1A2...An-1) > 0 時,有:P(A1A2...An1An)=P(A1)P(A2A1)P(A3A1A2)...P(AnA1A2...An1) P(A1A2...An-1An)=P(A1)P(A2|A1)P(A3|A1A2)...P(An|A1A2...An-1)
    在這裏插入圖片描述
  • 全概率公式:
    如果事件組B1B1B2B2,… 滿足

1.B1B1B2B2…兩兩互斥,即BiBj=Bi∩ Bj = ∅iji≠ji,j=12....i,j=1,2,....,P(Bi)>0,i=1,2,....P(Bi)>0,i=1,2,....;

2.B1B2....=ΩB1∪B2∪....=Ω ,則稱事件組 B1,B2,...B1,B2,...是樣本空間Ω的一個劃分;

B1,B2,...B1,B2,...是樣本空間ΩΩ的一個劃分,A爲任一事件,則
P(B)=i=1nP(BAi)P(Ai)P(B)=\sum_{i=1}^nP(B\mid A_i)P(A_i)

  • 貝葉斯公式:
    已知P(AB)P(B)P(A\mid B)、P(B),求P(BA)P(B\mid A)的過程。
    P(BA)=P(BA)P(A)=P(AB)P(A)P(B\mid A)=\dfrac{P(B\cap A)}{P(A)}=\dfrac{P(A\cap B)}{P(A)}
    P(AB)P(A\cap B)P(A)P(A)分別替換得到:
    P(BA)=P(AB)P(B)P(A)=P(AB)P(B)P(AB)P(B)+P(AB)P(B)P(B\mid A)=\dfrac{P(A\mid B)P(B)}{P(A)}=\dfrac{P(A\mid B)P(B)}{P(A\mid B)P(B)+P(A\mid B’)P(B’)}

將公式形式化之後得到
P(BiA)=P(ABi)P(Bi)i=1nP(ABi)P(Bi)P(B_i \mid A)=\dfrac{P(A\mid B_i)P(B_i)}{\sum_{i=1}^n P(A\mid B_i)P(B_i)}
P(AB)P(A|B):在BB條件下的事件AA的概率,在貝葉斯定理中,條件概率也被稱爲後驗概率,即在事件BB發生之後,我們對事件A概率的重新評估。

P(BA)P(B|A):在AA條件下的事件BB的概率,與上一條同理。

P(A)P(A)P(B)P(B)被稱爲先驗概率(也被稱爲邊緣概率),即在事件B發生之前,我們對事件AA概率的一個推斷(不考慮任何事件BB方面的因素),後面同理。

P(BA)/P(B)P(B|A)/P(B)被稱爲標準相似度,它是一個調整因子,主要是爲了保證預測概率更接近真實概率。

綜上貝葉斯定理表述爲: 後驗概率 = 標準相似度 * 先驗概率。

二、學習LR和linear regreeesion之間的區別

  • LR和linear regreeesion之間的區別:(如表格所示)
    在這裏插入圖片描述
    problem: 爲什麼邏輯迴歸比線性迴歸好?
  • 這主要是由於線性迴歸在整個實數域內敏感度一致,而分類範圍,需要在[0,1]之內。而邏輯迴歸就是一種減小預測範圍,將預測值限定爲[0,1]間的一種迴歸模型,其迴歸方程與迴歸曲線如下圖所示。邏輯曲線在z=0時,十分敏感,在z>>0或z<<0處,都不敏感,將預測值限定爲(0,1)。
  • LR在線性迴歸的實數範圍輸出值上施加sigmoid函數將值收斂到0~1範圍, 其目標函數也因此從差平方和函數變爲對數損失函數, 以提供最優化所需導數(sigmoid函數是softmax函數的二元特例, 其導數均爲函數值的f(1f)f*(1-f)形式)。請注意, LR往往是解決二元0/1分類問題的, 只是它和線性迴歸耦合太緊, 不自覺也冠了個迴歸的名字(馬甲無處不在). 若要求多元分類,就要把sigmoid換成大名鼎鼎的softmax了。
  • 首先邏輯迴歸和線性迴歸首先都是廣義的線性迴歸,其次經典線性模型的優化目標函數是最小二乘,而邏輯迴歸則是似然函數,另外線性迴歸在整個實數域範圍內進行預測,敏感度一致,而分類範圍,需要在[0,1]。邏輯迴歸就是一種減小預測範圍,將預測值限定爲[0,1]間的一種迴歸模型,因而對於這類問題來說,邏輯迴歸的魯棒性比線性迴歸的要好。

邏輯迴歸的模型本質上是一個線性迴歸模型,邏輯迴歸都是以線性迴歸爲理論支持的。但線性迴歸模型無法做到sigmoid的非線性形式,sigmoid可以輕鬆處理0/1分類問題。

三、推導sigmoid function公式

Sigmoid函數:g(z)=11+ezg(z)=\frac{1}{1+e^-z}
由這個函數可得:當z趨於正無窮時,g(z)趨於1,而當z趨於負無窮時,g(z)趨於0。
對該函數求導有:g(z)=g(z)(1g(z))g&#x27;(z)=g(z)(1-g(z))

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章