2017.04.03：數據倉庫與數據挖掘03

DBSAN優點

1.與K-means方法相比，DBSCAN不需要事先知道要形成的簇類的數量。

2.與K-means方法相比，DBSCAN可以發現任意形狀的簇類。

3.同時，DBSCAN能夠識別出噪聲點。

4.DBSCAN對於數據庫中樣本的順序不敏感，即Pattern的輸入順序對結果的影響不大。但是，對於處於簇類之間邊界樣本，可能會根據哪個簇類優先被探測到而其歸屬有所擺動。

缺點：

1. DBScan不能很好反映高維數據。

2. DBScan不能很好反映數據集以變化的密度。

聚合層次聚類：最初每個對象自成一個族，然後根據族之間的距離，這些原子族進行合併。

劃分層次聚類：最初所有對象都屬於同一個族，然後對這個族進行劃分。

BIRCH：通過掃描數據庫，建立一個初始存放於內存中的聚類特徵樹，然後對聚類特徵樹的葉結點進行聚類。它的核心是聚類特徵（CF）和聚類特徵樹（CF Tree）。CF 是指三元組CF=（N，LS，SS），用來概括子簇信息，而不是存儲所有的數據點。其中：N：簇中d 維點的數目； LS：N 個點的線性和；SS：N 個點的平方和。

Birch 算法主要分爲以下兩個階段：

(1) 掃描數據庫，動態的建立一棵存放在內存的CF 樹。若內存不夠，則增大閾值，在原樹基礎上構造一棵較小的樹。

(2) 對葉節點進一步利用一個全局性的聚類算法，改進聚類質量。由於 CF 樹的葉節點代表的聚類可能不是自然的聚類結果，原因是給定的閾值限制了簇的大小，並且數據的輸入順序也會影響到聚類結果。因此，需要對葉節點進一步利用一個全局性的聚類算法，改進聚類質量。

基於模型的聚類：利用一定的數學模型進行聚類。

GMM（GaussianMixture Model），高斯混合模型（或者混合高斯模型）。高斯模型就是用高斯概率密度函數（正態分佈曲線）精確地量化事物，將一個事物分解爲若干的基於高斯概率密度函數（正態分佈曲線）形成的模型。

GMM vs K-Means：GMM除了將數據對象指派給某個族外，還給出了對象屬於該族的概率。

SOM：自組織神經網絡。當外界輸入不同的樣本數據到人工的自組織神經網絡中，一開始，輸入樣本引起輸出興奮細胞的位置各不相同，但自組織後會形成一些細胞羣，他們分別代表了輸入樣本，反映了輸入樣本的特徵。

基於網格的聚類：使用一種多分辨率的網絡數據結構。它將對象空間量化成有限數目的單元，這些網格形成了網格結構，所有的聚類結構都在該結構上進行。這種方法的主要優點是處理速度快，其處理時間獨立於數據對象數，而僅依賴於量化空間中的每一維的單元數。

STING：利用網格單元保存數據統計信息，從而實現多分辨率的聚類

CLIQUE：是一種結合了網格和密度的聚類算法

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

2017.04.03：數據倉庫與數據挖掘03

【SQL進階】CASE語句的使用

npm error Cannot read properties of null (reading 'isDescendantOf')

爪哇，我初學乍道

2017.02.24：算法01（深搜）

2017.04.03：數據倉庫與數據挖掘03

2017.02.22：利用python進行數據分析

2017.01.07：面向對象設計、遞歸和動態規劃

2017.02.25：算法02（廣搜）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結