機器學習-聚類系算法-k-means

K-means舉例shi'li

1 K-means算法簡介

k-means算法是一種聚類算法,所謂聚類,即根據相似性原則,將具有較高相似度的數據對象劃分至同一類簇,將具有較高相異度的數據對象劃分至不同類簇。聚類與分類最大的區別在於,聚類過程爲無監督過程,即待處理數據對象沒有任何先驗知識,而分類過程爲有監督過程,即存在有先驗知識的訓練數據集。

2 K-means算法原理

k-means算法中的k代表類簇個數,means代表類簇內數據對象的均值(這種均值是一種對類簇中心的描述),因此,k-means算法又稱爲k-均值算法。k-means算法是一種基於劃分的聚類算法,以距離作爲數據對象間相似性度量的標準,即數據對象間的距離越小,則它們的相似性越高,則它們越有可能在同一個類簇。數據對象間距離的計算有很多種,k-means算法通常採用歐氏距離來計算數據對象間的距離。算法詳細的流程描述如下:

k-means算法聚類過程示意圖,如下:

3、k-means算法優缺點分析

- 優點: 算法簡單易實現; - 缺點: 需要用戶事先指定類簇個數; 聚類結果對初始類簇中心的選取較爲敏感; 容易陷入局部最優; 只能發現球形類簇;

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章