k近鄰法的三要素:k值的選擇,距離度量和分類決策規則
分類規則一般都是多數表決
k近鄰法沒有顯式的訓練過程
3.1 k近鄰算法
主要思想:k個最近點多數表決,個數最多的類即爲最後的分類。
3.2 k近鄰模型
3.2.2距離度量
常用的距離,對於兩個點,距離定義爲:
3.2.3 k值的選擇
k太小:對於近鄰的樣本非常敏感,如果該樣本爲噪聲就會出錯。
k太大:較遠的(不相似的)訓練樣本也會對預測起作用。如果k=N,則預測結果永遠是最多的類,顯然不對。
應用中一般取較小的值,採用交叉驗證選取k值。
3.2.4 分類決策規則
多數表決的本質就是使得誤分類率最小,即經驗風險最小化。