本文介紹KNN的原理
1. KNN算法能做什麼?
KNN算法是一種用於分類和迴歸的算法。
2.KNN算法原理
KNN算法是對於待分類的新數據,找到與其接近的K條數據,根據它們所屬的類別,來確定新數據的分類方式。
3.KNN分類的依據
數據集及分類規則,對於接近數據的衡量方式,所選擇的K的大小。
4. KNN算法工作舉例
下圖來自於Wikipedia的k-nearest neighbors algorithm詞條
若k=3,距離綠色的點最近的爲2個紅色三角形和1個藍色正方形,待分類的點應歸類到紅色三角形。
若k=5,距離綠色的點最近的爲2個紅色三角形和3個藍色正方形,待分類的點應歸類到藍色正方形。
5.對於最近的判斷
在算法中,提到了參與投票的點,是最近的k個點。
最近的依據可以是歐氏距離,餘弦距離或者其他度量方式。
6.歸類的標準
K個最近的點投票,簡單多數獲勝。
投票時也可以採取根據距離的加權方案。
7.KNN算法特點
無需訓練,構造簡單,開銷大
8.常見問題
K值選擇:
當K值選擇過小時,可能受到噪聲點的干擾
當K值選擇過大時,可能包含過多其他類的數據點