再學西瓜書----chapter9 k-mean 均值聚類

? K-means是有監督聚類還是無監督聚類
無監督問題, 還有pca降維也是無監督問題。

? K-means 聚類方法步驟

1:首先確定一個k值,即我們希望將數據集經過聚類得到k個集合。
2:從數據集中隨機選擇k個數據點作爲質心。
3:對數據集中每一個點,計算其與每一個質心的距離(如歐式距離),離哪個質心近,就劃分到那個質心所屬的集合。
4:把所有數據歸好集合後,一共有k個集合。然後重新計算每個集合的質心。
5:如果新計算出來的質心和原來的質心之間的距離小於某一個設置的閾值(表示重新計算的質心的位置變化不大,趨於穩定,或者說收斂),我們可以認爲聚類已經達到期望的結果,算法終止。
6:如果新質心和原質心距離變化很大,需要迭代3~5步驟。

? K-means 時間複雜度
O(tkm)

? K-means 優缺點

優點:
1:原理比較簡單,實現也是很容易,收斂速度快。
2:當結果簇是密集的,而簇與簇之間區別明顯時, 它的效果較好。
3:主要需要調參的參數僅僅是簇數k。
缺點:
1:K值需要預先給定,很多情況下K值的估計是非常困難的。
2:K-Means算法對初始選取的質心點是敏感的,不同的隨機種子點得到的聚類結果完全不同 ,對結果影響很大。
3:對噪音和異常點比較的敏感。用來檢測異常值
4:採用迭代方法,可能只能得到局部的最優解,而無法得到全局的最優解。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章