數據挖掘-聚類算法

一、聚類算法思想

即物以類聚,將相似的物品聚爲一類。

二、聚類算法

k-means、k-medoids、clarans、密度聚類、層次聚類等等

三、聚類算法詳解

3.1 k-means

基本思想:將n個數據樣本聚類,因爲除了樣本信息外,無法獲知應該將數據樣本聚類爲幾個簇。因此,假設將樣本分爲k個簇,而這也是k-means聚類算法的缺點。衡量聚類算法的評價指標:簇內樣本相似度高、簇間樣本相似度低。如果用聚類度量相似度,則可以理解爲簇內樣本距離小,簇間樣本距離大。

工作過程:(1)從n個樣本中任意選擇k個樣本作爲初始簇中心,採用簇中心代表一個簇。

(2)根據樣本集合中其他樣本與簇中心樣本的相似度,將樣本聚類到與簇中心最相似的簇。

(3)重新計算簇中心,即每個簇中所有樣本的均值。

(4)不斷重複步驟(2)、(3),直至標準測度函數(如均方差)收斂。

(5)評價:簇內樣本相似度,和簇間樣本相似度。對於簇內樣本相似度計算方法:如果採用距離度量,則可計算簇中心到簇內樣本的距離的均值;也可以計算簇內樣本間兩兩樣本距離的均值;如果採用密度度量,則每個簇可抽象爲一個以簇中心爲圓心,以簇中心到與距離其最遠的樣本的距離爲半徑的圓。再以簇中心爲圓心,從零逐漸增加半徑的單位量,計算每個環形區域內數據點的個數除以圓環面積,計算的所有結果取平均值作爲密度。

對於簇間樣本相似度計算方法:計算簇中心距離。

算法缺點:對髒數據敏感

3.2 k-medoids

和 k-means不同,其將每個簇中樣本距離簇內其他樣本距離最小的樣本作爲簇中心。

工作過程:

(1)從n個樣本中任意選擇k個樣本作爲初始簇中心,採用簇中心代表一個簇。

(2)根據樣本集合中其他樣本與簇中心樣本的相似度,將樣本聚類到與簇中心最相似的簇。

(3)重新計算簇中心,即每個簇中樣本距離簇內其他樣本距離最小的樣本作爲簇中心。

(4)不斷重複步驟(2)、(3),直至簇中心固定不變。

缺點:在選擇簇中心時增加了計算量

3.3 密度聚類

之後補上,曾經做數學建模時,有一塊用到密度聚類思想。


轉載請註明出處:https://blog.csdn.net/catchingSun/article/details/104851899

小女不才,尚有小羣,有意請加:

翻轉世界IT:386707638

碩博交流羣(僅限碩博):774547075

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章