聚類論文分析-A Hybrid Approach to Clustering in Big Data

談談對論文A Hybrid Approach to Clustering in Big Data的理解
在這篇論文中作者提出了一種新的聚類方法，叫clusiVAT算法，並且與 k-means, single pass k-means, online k-means,和clustering using representatives (CURE) 等算法進行了對比。

對聚類的理解

聚類(clustrering)是一種無監督學習方法，主要分成原型聚類(k均值算法，LVQ算法(學習向量量化算法)、高斯混合聚類)密度聚類(DBSCAN算法)、層次聚類(single-linkage算法)。
理解這篇論文需要一些前提知識:

論文中提到的常見聚類算法

常見的由層次聚類算法(hierarchical clustering)，基於簇中心的(centroid-based clustering)聚類算法等。作者用以下四種算法作爲參考，來體現clusiVAT算法的優秀之處。
(1):k-means算法
(2):online k-means算法
(3)pass k-means算法
(4)clustering using representatives(CURE)
一些基礎知識:
(1) single-linkage clustering，一種層次聚類方法，基於bottom up的聚類方式，聚類時每次將元素最接近的兩個cluster歸爲一類。

論文的主要成就

(1)與上述四種算法在大數據集下比較了clusiVAT算法的性能
(2)在24個 2-D數據集上展示了clusiVAT算法的CPU time和partition accuracy(PA).
(3)爲了體現clusiVAT算法對無標籤樣本的內部聚類性能，作者用Surry大學的indoor office environment energy usage data來做了測試，發現clusiVAT算法有最大的Dunn指數(在clusiVAT算法和其他4種算法之中)。
(4)做Friedman test

clusiVAT算法

clusiVAT算法基於reordered dissimilarity images(RDIs)，也叫作cluster heat maps，那到底是什麼意思呢?在圖像中，VAT實際上是對由像素組成的非相似矩陣D進行重排序(按照modified MST方法)形成矩陣D*，形成不同的簇，這些簇在圖像上看來就像一塊斑(dark blocks).
首先來看VAT算法:

按照論文的意思，D*是由D通過modified MST生成的，如圖:

標識黃線的部分就是MST的核心了，把最小權值的邊保留下來，由於對生成最小生成樹的Prim算法理解不深，黃線部分僞代碼還是不理解。。。

iVAT算法改進了VAT算法，有更小的時間複雜度O(n^2)
siVAT算法在iVAT和VAT算法的基礎上改進得可以處理很大的數據集。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

聚類論文分析-A Hybrid Approach to Clustering in Big Data

對聚類的理解

論文中提到的常見聚類算法

論文的主要成就

clusiVAT算法

開源高性能結構化日誌模塊NanoLog

杭州的 IT 崩盤了麼？

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

聚類論文分析-A Hybrid Approach to Clustering in Big Data

聊聊併發-Java中的Copy-On-Write容器(轉載)

深入Spring(1)

源碼面前，原形畢露之String源碼閱讀

最大和子矩陣

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結