k均值方法介紹:
從中任意選擇k個對象作爲簇的中心
repeat
根據均值,將每個對象劃分到最相似的簇
更新簇均值,計算每個簇對象的均值
until 不再發生變化
存在的缺點;
1.只有簇有均值定義的時候才能使用
2.不適合發現凸形狀的簇,或者大小相差很大的簇,適合發掘圓形簇
3.對噪聲數據十分敏感
爲了降低噪聲數據的影響,不以均值作爲參考點,而是以每個簇中的實際對象作爲參考點。那麼就引入了k中心點聚類方法。
從數據集中任意選擇k個對象作爲初始的代表對象
repeat
將剩餘的對象指派的最近的簇中
隨機選擇一個非代表對象o
計算用o代表oj的代價s
如果s<0,then 用o代替oj形成新的k個簇
until 不發生變化。
缺點:
1. 也是適合發現圓形簇
2. 對小數據有效,但是對於大數據沒有好的伸縮性