線性與非線性SVM, 機器學習中的範數規則化之(一)L0、L1與L2範數

SVM的應用領域很廣,分類、迴歸、密度估計、聚類等,但我覺得最成功的還是在分類這一塊。

用於分類問題時,SVM可供選擇的參數並不多,懲罰參數C,核函數及其參數選擇。對於一個應用,是選擇線性核,還是多項式核,還是高斯核?還是有一些規則的。

實際應用中,多數情況是特徵維數非常高。如OCR中的漢字識別,提取8方向梯度直方圖特徵,歸一化的字符被等分成8*8的網格,每個網格計算出長度爲8的方向直方圖,特徵維數是8*8*8 = 512維。在這樣的高維空間中,想把兩個字符類分開,用線性SVM是輕而易舉的事,當然用其它核也能把它們分開。那爲什麼要選擇線性核,因爲,線性核有兩個非常大的優點:1. 預測函數簡單f(x) = w’*x+b,分類速度快。對於類別多的問題,分類速度的確需要考慮到,線性分類器的w可以事先計算出來,而非線性分類器在高維空間時支持向量數會非常多,分類速度遠低於線性分類器。2. 線性SVM的推廣性有保證,而非線性如高斯核有可能過學習。再舉個例子,基於人臉的性別識別,即給定人臉圖像,判斷這個人是男還是女。我們提取了3700多維的特徵,用線性SVM就能在測試集上達到96%的識別正確率。因此,線性SVM是實際應用最多的,實用價值最大的。

  如果在你的應用中,特徵維數特別低,樣本數遠超過特徵維數,則選用非線性核如高斯核是比較合理的。如果兩類有較多重疊,則非線性SVM的支持向量特別多,選擇稀疏的非線性SVM會是一個更好的方案,支持向量少分類速度更快.

機器學習中的範數規則化之(一)L0、L1與L2範數

http://blog.csdn.net/zouxy09/article/details/24971995/

發佈了228 篇原創文章 · 獲贊 12 · 訪問量 25萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章