2017.04.03:數據倉庫與數據挖掘03



DBSAN優點

1.與K-means方法相比,DBSCAN不需要事先知道要形成的簇類的數量。

2.與K-means方法相比,DBSCAN可以發現任意形狀的簇類。

3.同時,DBSCAN能夠識別出噪聲點。

4.DBSCAN對於數據庫中樣本的順序不敏感,即Pattern的輸入順序對結果的影響不大。但是,對於處於簇類之間邊界樣本,可能會根據哪個簇類優先被探測到而其歸屬有所擺動。

缺點:

1. DBScan不能很好反映高維數據。

2. DBScan不能很好反映數據集以變化的密度。

 

聚合層次聚類:最初每個對象自成一個族,然後根據族之間的距離,這些原子族進行合併。

劃分層次聚類:最初所有對象都屬於同一個族,然後對這個族進行劃分。

 

BIRCH:通過掃描數據庫,建立一個初始存放於內存中的聚類特徵樹, 然後對聚類特徵樹的葉結點進行聚類。它的核心是聚類特徵(CF)和聚類特徵樹(CF Tree)。CF 是指三元組CF=(N,LS,SS),用來概括子簇信息,而不是存儲所有的數據點。 其中:N:簇中d 維點的數目; LS:N 個點的線性和;SS:N 個點的平方和。

Birch 算法主要分爲以下兩個階段:

(1) 掃描數據庫,動態的建立一棵存放在內存的CF 樹。若內存不夠,則增大閾值,在 原樹基礎上構造一棵較小的樹。

(2) 對葉節點進一步利用一個全局性的聚類算法,改進聚類質量。 由於 CF 樹的葉節點代表的聚類可能不是自然的聚類結果,原因是給定的閾值限制了簇 的大小,並且數據的輸入順序也會影響到聚類結果。因此,需要對葉節點進一步利用一個全 局性的聚類算法,改進聚類質量。

 

基於模型的聚類:利用一定的數學模型進行聚類。

GMM(GaussianMixture Model),高斯混合模型(或者混合高斯模型)。高斯模型就是用高斯概率密度函數(正態分佈曲線)精確地量化事物,將一個事物分解爲若干的基於高斯概率密度函數(正態分佈曲線)形成的模型。

GMM vs K-Means:GMM除了將數據對象指派給某個族外,還給出了對象屬於該族的概率。

 

SOM:自組織神經網絡。當外界輸入不同的樣本數據到人工的自組織神經網絡中,一開始,輸入樣本引起輸出興奮細胞的位置各不相同,但自組織後會形成一些細胞羣,他們分別代表了輸入樣本,反映了輸入樣本的特徵。

 

基於網格的聚類:使用一種多分辨率的網絡數據結構。它將對象空間量化成有限數目的單元,這些網格形成了網格結構,所有的聚類結構都在該結構上進行。這種方法的主要優點是處理速度快,其處理時間獨立於數據對象數,而僅依賴於量化空間中的每一維的單元數。

STING:利用網格單元保存數據統計信息,從而實現多分辨率的聚類

CLIQUE:是一種結合了網格和密度的聚類算法


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章