【論文筆記】《一種改進的多視圖聚類集成算法》

論文作者:鄧強,楊燕,王浩

論文類型:應用型論文

論文地址:http://www.cnki.com.cn/Article/CJFDTotal-JSJA201701013.htm

論文時間:2017年

論文內容:

  1. 基於多視圖K-means算法和聚類集成技術,提出了一種改進的多視圖聚類集成算法,其提高了聚類的準確性、魯棒性和穩定性。
  2. 結合分佈式處理技術,實現了一種分佈式的多視圖並行聚類算法。

1 引言

在多視圖聚類中,聚類數據由多個視圖構成,具有一致性和互補性的特點,所有視圖共享同一標籤信息。

多視圖聚類就是要找到一個滿足所有視圖的最優劃分。

聚類結果容易受到聚類參數和數據樣本的影響→聚類集成。

Spark並行化提高聚類效率。

2 基本原理

2.1 多視圖 K-means聚類

輸入:多視圖數據集,視圖權重向量

聚類目標函數(在一般的目標函數中結合了[多維]和[視圖權重]),使每個視圖點間距平方和最小:

設多視圖數據集 X=[x1, x2,…,xm ]∈Rdv×n ,1≤v≤m,表示數據集的樣本數爲n,視圖個數爲 m,每個視圖的維度是dv。k等於聚類簇的個數

μji=1表示樣本j屬於簇i, xj(v)表示在視圖v 下的樣本j, ci(v) 表示在視圖v下的第i個簇的聚類中心。

2.2 聚類集成

對數據進行r次聚類,得到一組聚類劃分 P={π1,π2,…,πr},πi表示第i個聚類劃分。則聚類集成可表示爲如下形式: P={π1,π2,…,πr}→π*。

以聚類劃分P作爲輸入,然後輸出新的相似度矩陣CTS,提高集成算法準確性

3 多視圖聚類集成

 

4 分佈式多視圖聚類集成算法

4.1 分佈式多視圖 K-means算法(DMKC)

4.2 分佈式多視圖聚類集成算法 (DMKCE)

5 實驗

5.1 多視圖聚類集成算法對比實驗

實驗對比算法採用了經典聚類算法、多視圖聚類算法以及多視圖聚類集成算法

5.2 分佈式算法性能實驗

數據:不同規模大小的數據樣本 

分析:執行時間、 加速比(數據不變增加計算節點)、數據伸縮率(計算節點不變增加數據)

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章