一、概念

KD树算法虽然提高了KNN搜索的效率，但是在某些时候效率并不高，比如当处理不均匀分布的数据集时,不管是近似方形，还是矩形，甚至正方形，都不是最好的使用形状，因为他们都有角。一个例子如下图：

如果黑色的实例点离目标点星点再远一点，那么虚线圆会如红线所示那样扩大，导致与左上方矩形的右下角相交，既然相交了，那么就要检查这个左上方矩形，而实际上，最近的点离星点的距离很近，检查左上方矩形区域已是多余。于此我们看见，KD树把二维平面划分成一个一个矩形，但矩形区域的角却是个难以处理的问题。

为了优化超矩形体导致的搜索效率的问题，牛人们引入了球树，这种结构可以优化上面的这种问题。

二、球树的构建

球树，顾名思义，就是每个分割块都是超球体，而不是KD树里面的超矩形体。

我们看看具体的建树流程：

1) 先构建一个超球体，这个超球体是可以包含所有样本的最小球体。

2) 从球中选择第一个点（离球的中心最远的点），然后选择第二个点（离第一个点最远的点）；将球中所有的点分配到离这两个聚类中心最近的一个上，然后计算每个聚类的中心，以及聚类能够包含它所有数据点所需的最小半径。这样我们得到了两个子超球体，和KD树里面的左右子树对应。

3)对于这两个子超球体，递归执行步骤2). 最终得到了一个球树。

可以看出KD树和球树类似，主要区别在于球树得到的是节点样本组成的最小超球体，而KD得到的是节点样本组成的超矩形体，这个超球体要与对应的KD树的超矩形体小，这样在做最近邻搜索的时候，可以避免一些无谓的搜索。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

k近邻算法——球树

一、概念

二、球树的构建

感知機 —— 算法（原始形式）

numpy的簡單使用

easy scheduler 一些使用技巧

機器學習實戰SVM——smo筆記

機器學習實戰_K近鄰算法 ——手寫數字預測（sklearn api）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結