[統計學習]KNN算法

本文介紹KNN的原理


1. KNN算法能做什麼?
KNN算法是一種用於分類和迴歸的算法。


2.KNN算法原理
KNN算法是對於待分類的新數據,找到與其接近的K條數據,根據它們所屬的類別,來確定新數據的分類方式。


3.KNN分類的依據
數據集及分類規則,對於接近數據的衡量方式,所選擇的K的大小。


4. KNN算法工作舉例
下圖來自於Wikipedia的k-nearest neighbors algorithm詞條


上圖有一個待分類的點(綠色)。有兩類已歸類的數據集,即藍色正方形和紅色三角形。
若k=3,距離綠色的點最近的爲2個紅色三角形和1個藍色正方形,待分類的點應歸類到紅色三角形。
若k=5,距離綠色的點最近的爲2個紅色三角形和3個藍色正方形,待分類的點應歸類到藍色正方形。


5.對於最近的判斷
在算法中,提到了參與投票的點,是最近的k個點。
最近的依據可以是歐氏距離,餘弦距離或者其他度量方式。


6.歸類的標準
K個最近的點投票,簡單多數獲勝。
投票時也可以採取根據距離的加權方案。


7.KNN算法特點
無需訓練,構造簡單,開銷大


8.常見問題
K值選擇:
當K值選擇過小時,可能受到噪聲點的干擾
當K值選擇過大時,可能包含過多其他類的數據點
發佈了56 篇原創文章 · 獲贊 44 · 訪問量 13萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章