聚類分析Kmean

原創

2020-03-25 09:48

1）事先不知道樣本的類別，甚至不知道需要得出的類別個數。
2）樣本類別之間有差異性，分類結果能很好地解釋預期現象。
3）一般用於數據探索，比如發現羣組和離羣點檢測，還可以作爲其他算法的預處理步驟。

很多教程都告訴我們基於劃分方法的聚類多適用於中等體量的數據集，但我們也不知道“中等”到底有多“中”。通常認爲記錄數量一般沒有限制，與實際應用有關，但樣本中記錄個數一般要大於聚類數的平方。

聚類分析是一種分類的多元統計分析方法。按照個體或樣品的特徵將它們分類，使同種類別的樣本放到一起，所有樣本最終會形成K個簇，在同一類別內的個體具有儘可能高的同質性(homogeneity) 。它屬於無監督學習。

根據給定的K值和K個初始質心將樣本中每個點都分到距離最近的類簇中，當所有點分配完後根據每個類簇的所有點重新計算質心，一般是通過平均值計算，然後再將每個點分到距離最近的新類簇中，不斷循環此操作，直到質心不再變化或達到一定的迭代次數。

K-means 聚類算法的優點：對大數據集合聚類效果明顯，聚類快速且易於實現。

Kmeans算法的步驟如下：
選擇K個點作爲初始質心（隨機產生或者從D中選取）
repeat
將每個點分配到最近的質心，形成K個簇
重新計算每個簇的質心
until 簇不發生變化或達到最大迭代次數
注：數學上可以證明k-means是收斂的。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.