logistic Regression存在的限制:(所有圖來源於Bishop)
Problem:對於logistic Regression解決分類問題,分類邊界是一條直線,但是當存在某些數據,會找不到一條直線分界,怎麼辦呢?
Solve:(1)feature transformation,即特徵轉換。舉例說明:
存在4組數據,[ x1, x2] 分別是[0, 0]、 [0, 1]、 [1, 0]、 [1, 1],zhe我們把數據點畫在二維平面上,如下圖所示:
我們發現無論如何也無法找到一條直線作爲分界來劃分紅色和藍色的數據點。此時,我們可以進行特徵轉換,特徵轉換可以自定義方式,比如:
[ x1, x2]轉換爲[x1', x2'], 其中x1 爲 x1'與[0, 0] 的距離,其中x2爲 x2'與[1, 1] 的距離,因此轉換後的數據點如圖所示(自己畫的比較醜):
可以看到特徵可以被一條直線分界,可以使用logistic Regression進行分類。
(2)因爲選擇一個合適的特徵轉換也不是很容易的,所以使用Cascading logistic regression級聯邏輯斯特迴歸解決上述問題。
如圖所示:
我來解釋一下:在Feature Transformation部分,我們使用logistic regression進行進行特徵轉換工作。對x1,z1 = x1* w1 + x2*w1 ,對x2,z2 = x1* w3 + x2* w4 。然後z1,z2分別進行sigmoid function,得到x1',x2',再進入下一個階段的logistic regression分類。