分層聚類算法

轉載▼

看到很多地方都講到分層聚類法，這到底是什麼東東，今天來研究一下。

分層聚類法是聚類算法的一種，聚類算法是數據挖掘的核心技術，把數據庫中的對象分類是數據挖掘的基本操作，其準則是使屬於同一類的個體間距離儘可能小，而不同類個體間距離儘可能大。

聚類算法一般分爲分割和分層兩種。

分割聚類算法通過優化評價函數把數據集分割爲K個部分，它需要K作爲輸人蔘數。

典型的分割聚類算法有K-means算法, K-medoids算法、CLARANS算法。

分層聚類由不同層次的分割聚類組成，層次之間的分割具有嵌套的關係。它不需要輸入參數，這是它優於分割聚類算法的一個明顯的優點，其缺點是終止條件必須具體指定。

典型的分層聚類算法有BIRCH算法、DBSCAN算法和CURE算法等。

各聚類算法的比較結果

算法        算法效率   適合的數據類型   發現的聚類類型   對髒數據或異常數據的敏感性   對數據輸入順序的敏感性
BIRCH         高            數值              凸形或球形                  不敏感                          不太敏感
DBSCAN     一般          數值                任意形狀                    敏感                               敏感
CURE         較高          數值                任意形狀                   不敏感                          不太敏感
K-poto