感知機是1957年,由Rosenblatt提出,是神經網絡和支持向量機的基礎。感知機是二分類的線性分類模型,其輸入爲實例的特徵向量,輸出爲實例的類別,取+1和-1二值。感知機對應於輸入空間中將實例劃分爲正負兩類的分離超平面,屬於判別類型。
假設訓練數據集是線性可分的,感知機學習的目標是求得一個能夠將訓練數據集正實例點和負實例點完全正確分開的分離超平面。如果是非線性可分的數據,則最後無法獲得超平面。
感知機模型
感知機的輸入特徵向量x爲n維向量,輸出y∈{+1,-1}.
感知機從輸入空間到輸出空間的模型如下:
f(x)=sign(w⋅x+b)
其中w∈Rn叫做權值,b∈R叫做偏置。
sign是符號函數,即:
sign(x)={−11x<0x≥0
感知機有如下幾何解釋:
線性方程w·x+b=0
對應於特徵空間Rn中的一個超平面S,其中w是超平面的法向量,b是超平面的截距。這個超平面將特徵空間劃分爲兩個部分。位於兩部分的點分別被分爲正、負兩類。如下圖所示:
感知機的學習目的就是確定最佳的w和b
數據集的線性可分性
給定一個訓練集T=(x1,y1),(x2,y2),...,(xN,yN),如果存在某個超平面S:w·x+b=0
能夠將數據集的正實例點和負實例點完全正確地劃分到超平面的兩側,則稱爲該數據集T線性可分,否則稱爲線性不可分。
感知機學習策略
損失函數
感知機的損失函數採用誤分類點到超平面S的總距離。
首先,寫出輸入空間中任意一點x0到超平面S的距離:∣∣w∣∣∣w⋅x0+b∣
其中,||w||是w的L2範數,L2範數定義爲向量所有元素的平方和的開平方。
對於誤分類的數據(xi,yi)來說,−yi(w⋅xi+b)>0 成立
因爲當w⋅xi+b>0時,yi=−1,而當w⋅xi+b<0時,yi=+1.
因此,誤分類點xi到超平面S的距離是:
−∣∣w∣∣yi(w⋅xi+b)
假設超平面S的誤分類點集合爲M,那麼所有誤分類點到超平面S的總距離爲:
−∣∣w∣∣1∑xi∈Myi(w⋅xi+b).
不考慮∣∣w∣∣1,則感知機的損失函數定義爲:
L(w,b)=−∑xi∈Myi(w⋅xi+b)
其中M爲誤分類點的集合.
顯然,損失函數是非負的。如果沒有誤分類點,損失函數值是0。而且,誤分類點越少,誤分類點離超平面越近,損失函數值就越小。給定訓練數據集T,損失函數 L(w,b)是w,b的連續可導函數。
爲什麼可以不考慮∣∣w∣∣1
- ∣∣w∣∣1不影響yi(w⋅xi+b)正負的判斷,即不影響學習算法的中間過程。因爲感知機學習算法是誤分類驅動的,這裏需要注意的是所謂的“誤分類驅動”指的是我們只需要判斷−yi(w⋅xi+b)的正負來判斷分類的正確與否,而∣∣w∣∣1並不影響正負值的判斷。所以∣∣w∣∣1對感知機學習算法的中間過程可以不考慮。
- ∣∣w∣∣1不影響感知機學習算法的最終結果。因爲感知機學習算法最終的終止條件是所有的輸入都被正確分類,即不存在誤分類的點。則此時損失函數爲0. 對應於−∣∣w∣∣1∑i∈Myi(w⋅xi+b),即分子爲0.則可以看出∣∣w∣∣1對最終結果也無影響。
感知機學習算法
原始形式
輸入:訓練數據集T=(x1,y1),(x2,y2),...,(xN,yN),yi∈{−1,+1},學習率η(0<η<1)
輸出:𝑤,𝑏;感知機模型f(x)=sign(w⋅x+b)
- 賦初值 w0,b0
- 選取數據點(xi,yi)
- 判斷該數據點是否爲當前模型的誤分類點,即判斷若yi(w⋅xi+b)<=0
則更新:
w=w+ηyixi
b=b+ηyi
- 轉到2,直到訓練集中沒有誤分類點
對偶形式
由於𝑤,𝑏的梯度更新公式:
w=w+ηyixi
b=b+ηyi
我們的𝑤,𝑏經過了𝑛次修改後的,參數可以變化爲下公式,其中𝛼=𝑛𝑦:
w=∑xi∈Mηyixi=∑i=1nαiyixi
b=∑xi∈Mηyi=∑i=1nαiyi
這樣我們就得出了感知機的對偶算法:
輸入:訓練數據集T=(x1,y1),(x2,y2),...,(xN,yN),yi∈{−1,+1},學習率η(0<η<1)
輸出:𝛼,𝑏;感知機模型f(x)=sign(w⋅x+b)
其中α=(α1,α2,...,αn)T
- 賦初值 w0,b0
- 選取數據點(xi,yi)
- 判斷該數據點是否爲當前模型的誤分類點,即判斷若yi(w⋅xi+b)<=0
則更新:
αi=αi+η
b=b+ηyi
- 轉到2,直到訓練集中沒有誤分類點
爲了減少計算量,我們可以預先計算式中的內積,得到Gram矩陣:
G=[xi,xj]N×N
訓練過程
我們大概從下圖看下感知機的訓練過程:
線性不可分的過程: