K 最近鄰算法

算法原理

一個樣本與數據集中的k個樣本最相似,如果這k個樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別。

K值選擇

k 值對模型的預測有着直接的影響,如果 k 值過小,預測結果對鄰近的實例點非常敏感。如果鄰近的實例恰巧是噪聲數據,預測就會出錯。也就是說,k 值越小就意味着整個模型就變得越複雜,越容易發生過擬合。

相反,如果 k 值越大,優點是可以減少模型的預測誤差,缺點是學習的近似誤差會增大。會使得距離實例點較遠的點也起作用,致使預測發生錯誤。同時,k 值的增大意味着模型變得越來越簡單。如果 k=N,那麼無論輸入實例是什麼,都將簡單的把它預測爲樣本中最多的一類。這顯然實不可取的。

在實際建模應用中,k 值一般取一個較小的數值,通常採用 cross-validation 的方法來選擇最優的 k 值。

具體用法

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章