1 目標
感知機算法針對二分類問題
f(X):X→{−1,+1}(1)
實質在於對於線性可分的數據集
(xi0,xi1,...,xin;yi)=(Xi;Yi),i=0,1,2,...,m(2)
找到一個超平面ωx+b=0 將數據分成兩部分,使得位於位於超平面上半部分的數據點屬於+1 類,處於超平面下半空間的數據點屬於−1 類。
2 優化模型
確定學習策略 —-定義(經驗)損失函數並將其最小化。
分析:
(1) 由於我們的目標是找到一個超平面將數據完分開,標籤爲+1 的樣本都處於超平面的上半空間,標籤爲-1 的樣本都處於超平面下半空間,自然想到目標損失函數迫使誤分類的數據點數降到0,表示成數學形式如下:
L(x;ω,b)=∑i=1NI[sign(ωx+b)≠yi](3)
但是這個損失函數L 不是參數ω,b 的連續可導函數,不易求解,因此不能採用這樣的函數。
(2)損失函數另一種取法是誤分類點到超平面的距離,則可寫作
L′(x;ω,b)=∑xi∈M|ωxi+b|||ω||(4)
式中M 是誤分點的集合。若M=∅ ,則L′=0 ,否則L′>0 。
爲了便於求解(4)式,需要對其進行等效處理。首先要處理掉“| |” ,ωxi+b 表示的是點xi 到超平面的相對距離;
樣本(Xi,+1)處於超平面的上半空間(ωxi+b>0)樣本(Xi,−1)處於超平面的下半空間(ωxi+b<0)}⇒yi(ωxi+b)>0(5)
這是數據點xi 被超平面分類正確的情況。相反,數據點被超平面錯分時:
樣本(Xi,−1)處於超平面的上半空間(ωxi+b>0)樣本(Xi,+1)處於超平面的下半空間(ωxi+b<0)}⇒yi(ωxi+b)<0(6)
則當樣本被錯分時,有
−yi(ωx+b)>0 ,因此,(4) 式被等效地變爲
L′(x;ω,b)=−1||ω||∑xi∈Myi(ωxi+b)(7)
學習模型就是將損失函數最小化,即
minω,bL′(x;ω,b)=minω,b−1||ω||∑xi∈Myi(ωxi+b)(8)
3 優化模型求解
上面已經將損失函數造好,下面就需要求解,不過求解之前對(8)式仍需做簡單的處理,項1||ω|| 不影響問題的最優解,而優化參數又處於分母,所以將其去掉,(8)式重新寫作
minω,b−∑xi∈Myi(ωxi+b)(9)
這是典型的多元函數求極值問題,用最速下降法即可高效求解。具體地,每一步使得參數ω^=(ω,b) 沿着其在損失函數的負梯度方向調整,即可快速求得最優解。
未完待續….
reference:
統計學習方法\李航