機器學習算法04 - 邏輯迴歸

邏輯迴歸

機器學習基本算法之一的邏輯迴歸方法的基本原理,其要點如下:

  • 邏輯迴歸模型是對線性迴歸的改進,用於解決分類問題;
  • 邏輯迴歸輸出的是實例屬於每個類別的似然概率,似然概率最大的類別就是分類結果;
  • 在一定條件下,邏輯迴歸模型與樸素貝葉斯分類器是等價的;
  • 多分類問題時可以通過多次使用二分類邏輯迴歸或者使用 Softmax 迴歸解決。

邏輯迴歸 & 線性迴歸

從數學角度看,線性迴歸和邏輯迴歸之間的淵源來源於非線性的對數似然函數;而從特徵空間的角度看,兩者的區別則在於數據判定邊界的變化。判定邊界可以類比爲棋盤上的楚河漢界,邊界兩側分別對應不同類型的數據。

以最簡單的二維平面直角座標系爲例。受模型形式的限制,利用線性迴歸只能得到直線形式的判定邊界;邏輯迴歸則在線性迴歸的基礎上,通過對數似然函數的引入使判定邊界的形狀不再受限於直線,而是推廣爲更加複雜的曲線形式,更加精細的分類也就不在話下。

邏輯迴歸 & 樸素貝葉斯分類器

  • 同一個模型,不同結果

即便原理不同,邏輯迴歸與樸素貝葉斯分類器在特定的條件下依然可以等效。 樸素貝葉斯方法和邏輯迴歸模型學習到的是同一個模型。

邏輯迴歸與線性迴歸的關係稱得上系出同門,與樸素貝葉斯分類的關係則是殊途同歸。兩者雖然都可以利用條件概率 P(Y|X) 完成分類任務,實現的路徑卻截然不同。

樸素貝葉斯分類器是生成模型的代表,其思想是先由訓練數據集估計出輸入和輸出的聯合概率分佈,再根據聯合概率分佈來生成符合條件的輸出,P(Y|X) 以後驗概率的形式出現。

邏輯迴歸模型則是判別模型的代表,其思想是先由訓練數據集估計出輸入和輸出的條件概率分佈,再根據條件概率分佈來判定對於給定的輸入應該選擇哪種輸出,P(Y|X) 以似然概率的形式出現。

  • 模型假設

兩者的區別在於當樸素貝葉斯分類的模型假設不成立時,邏輯迴歸和樸素貝葉斯方法通常會學習到不同的結果。當訓練樣本數接近無窮大時,邏輯迴歸的漸近分類準確率要優於樸素貝葉斯方法。而且邏輯迴歸並不完全依賴於屬性之間相互獨立的假設,即使給定違反這一假設的數據,邏輯迴歸的條件似然最大化算法也會調整其參數以實現最大化的數據擬合。相比之下,邏輯迴歸的偏差更小,但方差更大。

  • 收斂速度

兩者的區別還在於收斂速度的不同。邏輯迴歸中參數估計的收斂速度要慢於樸素貝葉斯方法。

  • 訓練數據集

訓練數據集的容量較大時,邏輯迴歸的性能優於樸素貝葉斯方法;但在訓練數據稀缺時,兩者的表現就會發生反轉。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章