PROCLUS算法

PROCLUS是由Aggarwal等人在1999年提出的一種子空間聚類算法。原文是《Fast Algorithms for Projected Clustering》，在ACM數據庫可以進行下載。

算法總體介紹

PROCLUS是基於投影的子空間聚類算法，搜索策略爲自頂向下。算法基於中心點思想，適合球形簇數據集，採用曼哈頓距離度量對象的相似性。

算法一共分爲以下三個階段：

輸入：數據集合 $D$ ，簇個數 $K$ ，常數 $A$ ，常數 $B$
輸出：中心點集 $MC$

從數據集中隨機選擇 $A*K$ （ $A$ 是常數）個數據構成初始中心點超集 $MC'$ ；
使用貪心算法從 $MC'$ 中選擇大小爲 $B*K$ （ $B$ 爲常數，且 $B<A$ ）的中心點集 $MC$ ；
2.1 初始化 $MC$ 爲空集
2.2 從 $MC'$ 中隨機選擇一個樣本 $m$ 加入 $MC$ （同時將 $m$ 從 $MC’$ 中移除）
2.3 計算 $MC'$ 中每個點與 $MC$ 中離該點最近的點的距離 $dis$ ，選擇 $dis$ 最大的點 $n$ ，將 $n$ 加入 $MC$ 中（同時將 $n$ 從 $MC’$ 中移除）
2.4 重複2.3直到 $MC$ 中樣本點數爲 $B*K$

輸入：數據集 $D$ (大小爲 $N$ )，中心點集 $MC$ ，簇平均維度 $L$ ，簇個數 $K$
輸出：最終的中心點集 $M$ ， $MC$ 中每個中心點對應的維度

從 $MC$ 中選擇一個樣本 $i$
計算 $MC$ 中其他樣本點與m的最小距離 $i_{mindist}$ （曼哈頓距離）
計算數據集中i局部近鄰點集合 $i_{neighbor}$ （數據集 $D$ 中離 $i$ 的曼哈頓距離小於 $i_{mindist}$ 的樣本點即爲i的局部近鄰點）
計算 $i_{neighbor}$ 與 $i$ 在每個特徵維度的平均距離 $X_{ij}$ （i表示中心點， $j$ 表示對應維度），計算所有維度維度均值 $Y_i$
計算Xij的標準差 $σ_i=\sqrt {\frac{\sum_{j=1}^{d} {(X_{ij}-Y_i)}^2}{d-1}}$
對於每個特徵維度計算 $Z_{ij}=\frac{X_{ij}-Y_i}{σ_i}$ ,對 $Z_{ij}$ 進行排序，選取 $Z_{ij}$ 最小的 $K*L$ (最小有兩維特徵)個特徵對應的維度,作爲候選中心點 $m$ 的子空間
重複1~6，爲 $MC$ 中所有中心點找到對應子空間
從 $MC$ 中選擇 $K$ 箇中心點，通過計算數據集中其他樣本點與中心點在中心點對應的子空間的曼哈頓截斷距離（Manhattan segmental distance），進行樣本點的分配，使用MC中其他中心點替換掉 $M_{bad}$ （在聚類過長中分配到的數據點個數小於 $\frac{N}{K}*C$ ，C是一個常數，一般設爲0.1）中心點

曼哈頓截斷距離：
$d_D(x_1,x_2)=\frac{\sum_{i\in{D}}|X_{1,i}-X_{2,i}|}{|D|}$ ( $D$ 表示中心點對應的子空間)

輸入：最優的中心點集M，迭代階段最後得到的簇分配結果 $\lbrace C_i,C_2....C_k\rbrace$
輸出：聚類結果

[1]Aggarwal C C , Wolf J L , Yu P S , et al. Fast Algorithms for Projected Clustering[J]. Sigmod, 1999, 28(2):61-72.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.