K近鄰法
(用於分類問題時)
算法介紹
- 問題:輸入已標註好類別的數據集。現給定一未知的x,求其對應的類別y。
- 算法:
- 在訓練集中找到與x最近的k個點。
- k個點中哪個類別最多,y就是哪個類別。
三要素
- k值選擇
k = 1時爲最近鄰算法 - 距離度量
- 歐氏距離
- 曼哈頓距離
- 分類決策規則
kd樹
kd樹是一種數據結構,通過“二分”的方式來加快對結點的查詢速度。
以k = 2爲例。
建樹:數據點通過對x或y的選擇,每次被分成小於和大於兩類。
查詢:根據樹中結點的有序性二分查找,找到葉子結點後,進行回溯,判斷是否存在更優點,如下圖所示。