基於matlab的K-means聚類算法

K-means聚類算法的一般步驟:

  1. 初始化。輸入基因表達矩陣作爲對象集X,輸入指定聚類類數N,並在X中隨機選取N個對象作爲初始聚類中心。設定迭代中止條件,比如最大循環次數或者聚類中心收斂誤差容限。
  2. 進行迭代。根據相似度準則將數據對象分配到最接近的聚類中心,從而形成一類。初始化隸屬度矩陣。
  3. 更新聚類中心。然後以每一類的平均向量作爲新的聚類中心,重新分配數據對象。
  4. 反覆執行第二步和第三步直至滿足中止條件。

下面來看看K-means是如何工作的:

圖中圓形爲聚類中心,方塊爲待聚類數據,步驟如下:

 (a)選取聚類中心,可以任意選取,也可以通過直方圖進行選取。我們選擇三個聚類中心,並將數據樣本聚到離它最近的中心;

 (b)數據中心移動到它所在類別的中心;

 (c)數據點根據最鄰近規則重新聚到聚類中心;

 (d)再次更新聚類中心;不斷重複上述過程直到評價標準不再變化

評價標準:

           

K-means面臨的問題以及解決辦法:

1.它不能保證找到定位聚類中心的最佳方案,但是它能保證能收斂到某個解決方案(不會無限迭代)。

   解決方法:多運行幾次K-means,每次初始聚類中心點不同,最後選擇方差最小的結果。

2.它無法指出使用多少個類別。在同一個數據集中,例如上圖例,選擇不同初始類別數獲得的最終結果是不同的。

    解決方法:首先設類別數爲1,然後逐步提高類別數,在每一個類別數都用上述方法,一般情況下,總方差會很快下降,直到到達一個拐點;這意味着再增加一個聚類中心不會顯著減少方差,保存此時的聚類數。

MATLAB函數Kmeans

使用方法:
Idx=Kmeans(X,K)
[Idx,C]=Kmeans(X,K) 
[Idx,C,sumD]=Kmeans(X,K) 
[Idx,C,sumD,D]=Kmeans(X,K) 
[…]=Kmeans(…,’Param1’,Val1,’Param2’,Val2,…)

各輸入輸出參數介紹:
X: N*P的數據矩陣,N爲數據個數,P爲單個數據維度
K: 表示將X劃分爲幾類,爲整數
Idx: N*1的向量,存儲的是每個點的聚類標號
C: K*P的矩陣,存儲的是K個聚類質心位置
sumD: 1*K的和向量,存儲的是類間所有點與該類質心點距離之和
D: N*K的矩陣,存儲的是每個點與所有質心的距離

[…]=Kmeans(…,'Param1',Val1,'Param2',Val2,…)
這其中的參數Param1、Param2等,主要可以設置爲如下:
1. ‘Distance’(距離測度)
    ‘sqEuclidean’ 歐式距離(默認時,採用此距離方式)
    ‘cityblock’ 絕度誤差和,又稱:L1
    ‘cosine’ 針對向量
    ‘correlation’  針對有時序關係的值
    ‘Hamming’ 只針對二進制數據
2. ‘Start’(初始質心位置選擇方法)
    ‘sample’ 從X中隨機選取K個質心點
    ‘uniform’ 根據X的分佈範圍均勻的隨機生成K個質心
    ‘cluster’ 初始聚類階段隨機選擇10%的X的子樣本(此方法初始使用’sample’方法)
     matrix 提供一K*P的矩陣,作爲初始質心位置集合
3. ‘Replicates’(聚類重複次數)  整數

案例一:

  1. %隨機獲取150個點
  2. X = [randn(50,2)+ones(50,2);randn(50,2)-ones(50,2);randn(50,2)+[ones(50,1),-ones(50,1)]];
  3. opts = statset('Display','final');
  4. %調用Kmeans函數
  5. %X N*P的數據矩陣
  6. %Idx N*1的向量,存儲的是每個點的聚類標號
  7. %Ctrs K*P的矩陣,存儲的是K個聚類質心位置
  8. %SumD 1*K的和向量,存儲的是類間所有點與該類質心點距離之和
  9. %D N*K的矩陣,存儲的是每個點與所有質心的距離;
  10. [Idx,Ctrs,SumD,D] = kmeans(X,3,'Replicates',3,'Options',opts);
  11. %畫出聚類爲1的點。X(Idx==1,1),爲第一類的樣本的第一個座標;X(Idx==1,2)爲第二類的樣本的第二個座標
  12. plot(X(Idx==1,1),X(Idx==1,2),'r.','MarkerSize',14)
  13. hold on
  14. plot(X(Idx==2,1),X(Idx==2,2),'b.','MarkerSize',14)
  15. hold on
  16. plot(X(Idx==3,1),X(Idx==3,2),'g.','MarkerSize',14)
  17. %繪出聚類中心點,kx表示是圓形
  18. plot(Ctrs(:,1),Ctrs(:,2),'kx','MarkerSize',14,'LineWidth',4)
  19. plot(Ctrs(:,1),Ctrs(:,2),'kx','MarkerSize',14,'LineWidth',4)
  20. plot(Ctrs(:,1),Ctrs(:,2),'kx','MarkerSize',14,'LineWidth',4)
  21. legend('Cluster 1','Cluster 2','Cluster 3','Centroids','Location','NW')
  22. Ctrs
  23. SumD

結果圖片:

案例二:

  1. %K-means聚類
  2. clc,clear;
  3. load tyVector;
  4. X=tyVector'; %列向量變成行向量,209*180矩陣
  5. [x,y]=size(X);
  6. opts = statset('Display','final');
  7. K=11; %將X劃分爲K類
  8. repN=50; %迭代次數
  9. %K-mean聚類
  10. [Idx,Ctrs,SumD,D] = kmeans(X,K,'Replicates',repN,'Options',opts);
  11. %Idx N*1的向量,存儲的是每個點的聚類標號
  12. %打印結果
  13. fprintf('劃分成%d類的結果如下:\n',K)
  14. for i=1:K
  15. tm=find(Idx==i); %求第i類的對象
  16. tm=reshape(tm,1,length(tm)); %變成行向量
  17. fprintf('第%d類共%d個分別是%s\n',i,length(tm),int2str(tm)); %顯示分類結果
  18. end

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章