DBSAN優點
1.與K-means方法相比,DBSCAN不需要事先知道要形成的簇類的數量。
2.與K-means方法相比,DBSCAN可以發現任意形狀的簇類。
3.同時,DBSCAN能夠識別出噪聲點。
4.DBSCAN對於數據庫中樣本的順序不敏感,即Pattern的輸入順序對結果的影響不大。但是,對於處於簇類之間邊界樣本,可能會根據哪個簇類優先被探測到而其歸屬有所擺動。
缺點:
1. DBScan不能很好反映高維數據。
2. DBScan不能很好反映數據集以變化的密度。
聚合層次聚類:最初每個對象自成一個族,然後根據族之間的距離,這些原子族進行合併。
劃分層次聚類:最初所有對象都屬於同一個族,然後對這個族進行劃分。
BIRCH:通過掃描數據庫,建立一個初始存放於內存中的聚類特徵樹, 然後對聚類特徵樹的葉結點進行聚類。它的核心是聚類特徵(CF)和聚類特徵樹(CF Tree)。CF 是指三元組CF=(N,LS,SS),用來概括子簇信息,而不是存儲所有的數據點。 其中:N:簇中d 維點的數目; LS:N 個點的線性和;SS:N 個點的平方和。
Birch 算法主要分爲以下兩個階段:
(1) 掃描數據庫,動態的建立一棵存放在內存的CF 樹。若內存不夠,則增大閾值,在 原樹基礎上構造一棵較小的樹。
(2) 對葉節點進一步利用一個全局性的聚類算法,改進聚類質量。 由於 CF 樹的葉節點代表的聚類可能不是自然的聚類結果,原因是給定的閾值限制了簇 的大小,並且數據的輸入順序也會影響到聚類結果。因此,需要對葉節點進一步利用一個全 局性的聚類算法,改進聚類質量。
基於模型的聚類:利用一定的數學模型進行聚類。
GMM(GaussianMixture Model),高斯混合模型(或者混合高斯模型)。高斯模型就是用高斯概率密度函數(正態分佈曲線)精確地量化事物,將一個事物分解爲若干的基於高斯概率密度函數(正態分佈曲線)形成的模型。
GMM vs K-Means:GMM除了將數據對象指派給某個族外,還給出了對象屬於該族的概率。
SOM:自組織神經網絡。當外界輸入不同的樣本數據到人工的自組織神經網絡中,一開始,輸入樣本引起輸出興奮細胞的位置各不相同,但自組織後會形成一些細胞羣,他們分別代表了輸入樣本,反映了輸入樣本的特徵。
基於網格的聚類:使用一種多分辨率的網絡數據結構。它將對象空間量化成有限數目的單元,這些網格形成了網格結構,所有的聚類結構都在該結構上進行。這種方法的主要優點是處理速度快,其處理時間獨立於數據對象數,而僅依賴於量化空間中的每一維的單元數。
STING:利用網格單元保存數據統計信息,從而實現多分辨率的聚類
CLIQUE:是一種結合了網格和密度的聚類算法