[數據挖掘]聚類算法一覽

[數據挖掘]聚類算法一覽

  聚類分析是數據挖掘中的一個很活躍的研究領域,並提出了許多聚類算法。這些算法可以被分爲劃分方法、層次方法、基於密度方法、基於網格方法和基於模型方法。

1 、劃分方法(PAM:PArtitioning method)  首先創建k個劃分,k爲要創建的劃分個數;然後利用一個循環定位技術通過將對象從一個劃分移到另一個劃分來幫助改善劃分質量。典型的劃分方法包括:
k-means,k-medoids,CLARA(Clustering LARge Application),
CLARANS(Clustering Large Application based upon RANdomized Search).
FCM

2、 層次方法(hierarchical method)  創建一個層次以分解給定的數據集。該方法可以分爲自上而下(分解)和自下而上(合併)兩種操作方式。爲彌補分解與合併的不足,層次合併經常要與其它聚類方法相結合,如循環定位。典型的這類方法包括:
第一個是;BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) 方法,它首先利用樹的結構對對象集進行劃分;然後再利用其它聚類方法對這些聚類進行優化。
第二個是CURE(Clustering Using REprisentatives) 方法,它利用固定數目代表對象來表示相應聚類;然後對各聚類按照指定量(向聚類中心)進行收縮。
第三個是ROCK方法,它利用聚類間的連接進行聚類合併。
最後一個CHEMALOEN,它則是在層次聚類時構造動態模型。

3、 基於密度方法,根據密度完成對象的聚類。它根據對象周圍的密度(如 DBSCAN)不斷增長聚類。典型的基於密度方法包括:
    DBSCAN(Densit-based Spatial Clustering of Application with Noise):該算法通過不斷生長足夠高密度區域來進行聚類;它能從含有噪聲的空間數據庫中發現任意形狀的聚類。此方法將一個聚類定義爲一組“密度連接”的點集。
    OPTICS(Ordering Points To Identify the Clustering Structure):並不明確產生一個聚類,而是爲自動交互的聚類分析計算出一個增強聚類順序。。

4 、基於網格方法,首先將對象空間劃分爲有限個單元以構成網格結構;然後利用網格結構完成聚類。
    STING(STatistical INformation Grid) 就是一個利用網格單元保存的統計信息進行基於網格聚類的方法。
    CLIQUE(Clustering In QUEst)和Wave-Cluster 則是一個將基於網格與基於密度相結合的方法。

5、 基於模型方法,它假設每個聚類的模型並發現適合相應模型的數據。典型的基於模型方法包括:

    統計方法COBWEB:是一個常用的且簡單的增量式概念聚類方法。它的輸入對象是採用符號量(屬性-值)對來加以描述的。採用分類樹的形式來創建一個層次聚類。
    CLASSIT是COBWEB的另一個版本.。它可以對連續取值屬性進行增量式聚類。它爲每個結點中的每個屬性保存相應的連續正態分佈(均值與方差);並利用一個改進的分類能力描述方法,即不象COBWEB那樣計算離散屬性(取值)和而是對連續屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。因此它們都不適合對大數據庫進行聚類處理.

 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章