數據挖掘中的劃分聚類簡介(k均值和k中心點)

     k均值方法介紹:

         從中任意選擇k個對象作爲簇的中心

     repeat

        根據均值,將每個對象劃分到最相似的簇

        更新簇均值,計算每個簇對象的均值

    until 不再發生變化

  存在的缺點;

      1.只有簇有均值定義的時候才能使用

      2.不適合發現凸形狀的簇,或者大小相差很大的簇,適合發掘圓形簇

      3.對噪聲數據十分敏感

  

    爲了降低噪聲數據的影響,不以均值作爲參考點,而是以每個簇中的實際對象作爲參考點。那麼就引入了k中心點聚類方法。

        從數據集中任意選擇k個對象作爲初始的代表對象

   repeat

       將剩餘的對象指派的最近的簇中

        隨機選擇一個非代表對象o

       計算用o代表oj的代價s

      如果s<0,then 用o代替oj形成新的k個簇

  until 不發生變化。

  缺點:

    1. 也是適合發現圓形簇

    2. 對小數據有效,但是對於大數據沒有好的伸縮性

   

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章