機器學習面試準備之一、線性迴歸與邏輯迴歸

機器學習面試準備之一、線性迴歸與邏輯迴歸

(1)線性迴歸(Linear Regression):

線性迴歸纔是真正用於迴歸的,而不像logistic迴歸是用於分類,其基本思想是用梯度下降法對最小二乘法形式的誤差函數進行優化。單變量線性迴歸的基本形式就是y = ax + b,用來擬合數據,比如房屋面積和價格的關係。

收集的數據中,每一個分量,就可以看做一個特徵數據。每個特徵至少對應一個未知的參數。這樣就形成了一個線性模型函數,多變量線性迴歸的表示形式爲:

image

優化目標爲:

image

在線性迴歸的基礎上,有了局部加權線性迴歸(LWLR),優化目標爲:

image

由此可見LWLR與LR不同,LWLR是一個非參數模型,因爲每次進行迴歸計算都要遍歷訓練樣本至少一次。

線性迴歸優缺點:

  • 優點:實現簡單,計算簡單;
  • 缺點:不能擬合非線性數據;

(2)邏輯迴歸(Logistic Regression):

Logistic是用來分類的,是一個非線性的二分類模型,主要是計算在某個樣本特徵下事件發生的概率,但是它本質上又是一個線性迴歸模型,因爲除去sigmoid映射函數,其他的步驟,算法都是線性迴歸的。可以說,邏輯迴歸,都是以線性迴歸爲理論支持的。比如根據用戶的瀏覽購買情況作爲特徵來計算它是否會購買這個商品,抑或是它是否會點擊這個商品。然後LR的最終值是根據一個線性和函數再通過一個sigmod function來求得,這個線性和函數權重與特徵值的累加以及加上偏置求出來的,所以在訓練LR時也就是在訓練線性和函數的各個權重值w。

logistic函數表達式爲:
image

sigmoid函數的圖像:

image

邏輯迴歸模型實際上是預測條件概率,關於邏輯迴歸的模型參數,是通過極大似然估計法估計的。估計這個L(w)的極大值就可以得到w的估計值。

image

image

Logistic迴歸參數的學習規則,同線性迴歸一樣,都可以通過梯度下降法。

關於LR的多分類:softmax

關於softmax迴歸的更多:http://ufldl.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92

softmax:假設離散型隨機變量Y的取值集合是{1,2,..,k},則多分類的LR爲
P(Y=a|x)=exp(wa * x) / ( 1 - 1到k求和(wk * x)) 1

Logistic迴歸優缺點:

優點:

實現簡單;
分類時計算量非常小,速度很快,存儲資源低;

缺點:

容易過擬合,一般準確度不太高;
只能處理兩分類問題(在此基礎上衍生出來的softmax可以用於多分類),且必須線性可分;

(3)正則化方法

對於線性迴歸或邏輯迴歸的損失函數構成的模型,可能會有些權重很大,有些權重很小,導致過擬合,使得模型的複雜度提高,泛化能力較差(對未知數據的預測能力)。過擬合問題往往源自過多的特徵。

  • 解決方法

1)減少特徵數量(減少特徵會失去一些信息,即使特徵選的很好)

可用人工選擇要保留的特徵;
模型選擇算法;

2)正則化(特徵較多時比較有效)

保留所有特徵,但減少θ的大小

image

image

(4)分類和迴歸的區別:在於輸出變量的類型。

定量輸出稱爲迴歸,或者說是連續變量預測;
定性輸出稱爲分類,或者說是離散變量預測。
舉個例子:
預測明天的氣溫是多少度,這是一個迴歸任務;
預測明天是陰、晴還是雨,就是一個分類任務。

總的來說兩個問題本質上都是一致的,就是模型的擬合(匹配)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章