論文作者:鄧強,楊燕,王浩
論文類型:應用型論文
論文地址:http://www.cnki.com.cn/Article/CJFDTotal-JSJA201701013.htm
論文時間:2017年
論文內容:
- 基於多視圖K-means算法和聚類集成技術,提出了一種改進的多視圖聚類集成算法,其提高了聚類的準確性、魯棒性和穩定性。
- 結合分佈式處理技術,實現了一種分佈式的多視圖並行聚類算法。
1 引言
在多視圖聚類中,聚類數據由多個視圖構成,具有一致性和互補性的特點,所有視圖共享同一標籤信息。
多視圖聚類就是要找到一個滿足所有視圖的最優劃分。
聚類結果容易受到聚類參數和數據樣本的影響→聚類集成。
Spark並行化提高聚類效率。
2 基本原理
2.1 多視圖 K-means聚類
輸入:多視圖數據集,視圖權重向量
聚類目標函數(在一般的目標函數中結合了[多維]和[視圖權重]),使每個視圖點間距平方和最小:
設多視圖數據集 X=[x1, x2,…,xm ]∈Rdv×n ,1≤v≤m,表示數據集的樣本數爲n,視圖個數爲 m,每個視圖的維度是dv。k等於聚類簇的個數
μji=1表示樣本j屬於簇i, xj(v)表示在視圖v 下的樣本j, ci(v) 表示在視圖v下的第i個簇的聚類中心。
2.2 聚類集成
對數據進行r次聚類,得到一組聚類劃分 P={π1,π2,…,πr},πi表示第i個聚類劃分。則聚類集成可表示爲如下形式: P={π1,π2,…,πr}→π*。
以聚類劃分P作爲輸入,然後輸出新的相似度矩陣CTS,提高集成算法準確性
3 多視圖聚類集成
4 分佈式多視圖聚類集成算法
4.1 分佈式多視圖 K-means算法(DMKC)
4.2 分佈式多視圖聚類集成算法 (DMKCE)
5 實驗
5.1 多視圖聚類集成算法對比實驗
實驗對比算法採用了經典聚類算法、多視圖聚類算法以及多視圖聚類集成算法
5.2 分佈式算法性能實驗
數據:不同規模大小的數據樣本
分析:執行時間、 加速比(數據不變增加計算節點)、數據伸縮率(計算節點不變增加數據)