對付非線性可分的數據集的一種通用辦法

假設這個數據集能夠被一個非線性的面分開,這個面的表達形式爲f(x,y,z)。那麼,根據泰勒展開,可以得到f(x,y,z)的多項式表達。那麼,就可以把其多項式表達作爲一個新的面,將多項式的各個次數的分量組成一個新的向量,就成了線性可分的。這樣相當於將數據集做了個變換,將非線性的數據集變換成線性的數據集。

由此可以推出,在一定意義上來說,任何非線性的數據集通過某種變換後,都是線性可分的。

但是,如果經過泰勒展開以後,數據的維度會上升的很快,所以存儲和計算速度都會增加很快。同時,因爲參數增長的非常快,VC維度也會增加的很快,非常容易發生overfitting 。

因此,一個比較科學的做法是,從線性逼近開始嘗試,然後一步步的測試複雜的逼近。

另外一個問題是過擬合的問題。過擬合跟兩個東西有關:噪聲和數據集大小。如果數據集小、而所選的模型的VC維度太高的話,就會發生過擬合現象。

下圖說明了另外一個問題。即使我們的分類器是很高次數的多項式,但是在數據量有限的情況下也會出現過擬合現象。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章