分層聚類算法
看到很多地方都講到分層聚類法,這到底是什麼東東,今天來研究一下。
分層聚類法是聚類算法的一種,聚類算法是數據挖掘的核心技術,把數據庫中的對象分類是數據挖掘的基本操作,其準則是使屬於同一類的個體間距離儘可能小,而不同類個體間距離儘可能大。
聚類算法一般分爲分割和分層兩種。
分割聚類算法通過優化評價函數把數據集分割爲K個部分,它需要K作爲輸人蔘數。
典型的分割聚類算法有K-means算法, K-medoids算法、CLARANS算法。
分層聚類由不同層次的分割聚類組成,層次之間的分割具有嵌套的關係。它不需要輸入參數,這是它優於分割聚類算法的一個明顯的優點,其缺點是終止條件必須具體指定。
典型的分層聚類算法有BIRCH算法、DBSCAN算法和CURE算法等。
各聚類算法的比較結果
算法 算法效率 適合的數據類型 發現的聚類類型 對髒數據或異常數據的敏感性 對數據輸入順序的敏感性
BIRCH 高 數值 凸形或球形 不敏感 不太敏感
DBSCAN 一般 數值 任意形狀 敏感 敏感
CURE 較高 數值 任意形狀 不敏感 不太敏感
K-poto