數據分析與挖掘(十四)------挖掘建模之聚類分析

聚類分析是在沒有給定劃分類別的情況下,根據數據相似度進行樣本分組的一種方法。與分類模型需要使用有類標記樣本構成的訓練數據不同,聚類模型可以建立在無類標記的數據上,是一種非監督的學習算法。聚類的輸入是一組未被標記的樣本,聚類根據數據自身的距離或相似度將其劃分爲若干組,劃分的原則是組內距離最小化而組件(外部)距離最大化。

 

常用聚類方法

 

類別

包括的主要算法

劃分(分裂)方法

K-Means算法(K-平均)、K-MEDOIDS算法(K-中心點)、CLARANS算法(基於選擇的算法)

層次分析方法

BIRCH算法(平衡迭代規約和聚類)、CURE(代表點聚類)、CHAMELEON算法(動態模型)

基於密度的方法

DBSCAN算法(基於高密度連接區域)、DENCLUE算法(密度分佈函數)、OPTICS算法(對象排序識別)

基於網格的方法

STING算法(統計信息網絡)、CLIOUE算法(聚類高維空間)、WAVE-CLUSTER算法(小波變換)

基於模型的方法

統計學方法,神經網絡方法

常用聚類分析算法

 

算法名稱

算法描述

K-Means

K-均值聚類也稱爲快速聚類法,在最小化誤差函數的基礎上將數據劃分爲預定的類數K。該算法原理簡單並便於處理大量數據。

K-中心點

K-均值算法對孤立點的敏感性,K-中心點算法不採用簇中對象的平均值作爲簇中心,而選用簇中離平均值最近的對象作爲簇中心

系統聚類

系統聚類也稱爲多層次聚類,分類的結構由高到低呈樹形結構,並且所處的位置越低,其所包含的對象就越少,但這些對象間的共同特徵越多。該聚類方法只適合在小數據量時候使用,數據量大的時候速度會非常慢。

 

 

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章