聚類分析是在沒有給定劃分類別的情況下,根據數據相似度進行樣本分組的一種方法。與分類模型需要使用有類標記樣本構成的訓練數據不同,聚類模型可以建立在無類標記的數據上,是一種非監督的學習算法。聚類的輸入是一組未被標記的樣本,聚類根據數據自身的距離或相似度將其劃分爲若干組,劃分的原則是組內距離最小化而組件(外部)距離最大化。
常用聚類方法
類別 |
包括的主要算法 |
劃分(分裂)方法 |
K-Means算法(K-平均)、K-MEDOIDS算法(K-中心點)、CLARANS算法(基於選擇的算法) |
層次分析方法 |
BIRCH算法(平衡迭代規約和聚類)、CURE(代表點聚類)、CHAMELEON算法(動態模型) |
基於密度的方法 |
DBSCAN算法(基於高密度連接區域)、DENCLUE算法(密度分佈函數)、OPTICS算法(對象排序識別) |
基於網格的方法 |
STING算法(統計信息網絡)、CLIOUE算法(聚類高維空間)、WAVE-CLUSTER算法(小波變換) |
基於模型的方法 |
統計學方法,神經網絡方法 |
常用聚類分析算法
算法名稱 |
算法描述 |
K-Means |
K-均值聚類也稱爲快速聚類法,在最小化誤差函數的基礎上將數據劃分爲預定的類數K。該算法原理簡單並便於處理大量數據。 |
K-中心點 |
K-均值算法對孤立點的敏感性,K-中心點算法不採用簇中對象的平均值作爲簇中心,而選用簇中離平均值最近的對象作爲簇中心 |
系統聚類 |
系統聚類也稱爲多層次聚類,分類的結構由高到低呈樹形結構,並且所處的位置越低,其所包含的對象就越少,但這些對象間的共同特徵越多。該聚類方法只適合在小數據量時候使用,數據量大的時候速度會非常慢。 |