一、聚類算法思想
即物以類聚,將相似的物品聚爲一類。
二、聚類算法
k-means、k-medoids、clarans、密度聚類、層次聚類等等
三、聚類算法詳解
3.1 k-means
基本思想:將n個數據樣本聚類,因爲除了樣本信息外,無法獲知應該將數據樣本聚類爲幾個簇。因此,假設將樣本分爲k個簇,而這也是k-means聚類算法的缺點。衡量聚類算法的評價指標:簇內樣本相似度高、簇間樣本相似度低。如果用聚類度量相似度,則可以理解爲簇內樣本距離小,簇間樣本距離大。
工作過程:(1)從n個樣本中任意選擇k個樣本作爲初始簇中心,採用簇中心代表一個簇。
(2)根據樣本集合中其他樣本與簇中心樣本的相似度,將樣本聚類到與簇中心最相似的簇。
(3)重新計算簇中心,即每個簇中所有樣本的均值。
(4)不斷重複步驟(2)、(3),直至標準測度函數(如均方差)收斂。
(5)評價:簇內樣本相似度,和簇間樣本相似度。對於簇內樣本相似度計算方法:如果採用距離度量,則可計算簇中心到簇內樣本的距離的均值;也可以計算簇內樣本間兩兩樣本距離的均值;如果採用密度度量,則每個簇可抽象爲一個以簇中心爲圓心,以簇中心到與距離其最遠的樣本的距離爲半徑的圓。再以簇中心爲圓心,從零逐漸增加半徑的單位量,計算每個環形區域內數據點的個數除以圓環面積,計算的所有結果取平均值作爲密度。
對於簇間樣本相似度計算方法:計算簇中心距離。
算法缺點:對髒數據敏感
3.2 k-medoids
和 k-means不同,其將每個簇中樣本距離簇內其他樣本距離最小的樣本作爲簇中心。
工作過程:
(1)從n個樣本中任意選擇k個樣本作爲初始簇中心,採用簇中心代表一個簇。
(2)根據樣本集合中其他樣本與簇中心樣本的相似度,將樣本聚類到與簇中心最相似的簇。
(3)重新計算簇中心,即每個簇中樣本距離簇內其他樣本距離最小的樣本作爲簇中心。
(4)不斷重複步驟(2)、(3),直至簇中心固定不變。
缺點:在選擇簇中心時增加了計算量
3.3 密度聚類
之後補上,曾經做數學建模時,有一塊用到密度聚類思想。
轉載請註明出處:https://blog.csdn.net/catchingSun/article/details/104851899
小女不才,尚有小羣,有意請加:
翻轉世界IT:386707638
碩博交流羣(僅限碩博):774547075