數據挖掘-聚類算法

原創

catchingSun

2020-06-17 07:40

一、聚類算法思想

即物以類聚，將相似的物品聚爲一類。

二、聚類算法

k-means、k-medoids、clarans、密度聚類、層次聚類等等

三、聚類算法詳解

3.1 k-means

基本思想:將n個數據樣本聚類，因爲除了樣本信息外，無法獲知應該將數據樣本聚類爲幾個簇。因此，假設將樣本分爲k個簇，而這也是k-means聚類算法的缺點。衡量聚類算法的評價指標：簇內樣本相似度高、簇間樣本相似度低。如果用聚類度量相似度，則可以理解爲簇內樣本距離小，簇間樣本距離大。

工作過程：（1）從n個樣本中任意選擇k個樣本作爲初始簇中心，採用簇中心代表一個簇。

（2）根據樣本集合中其他樣本與簇中心樣本的相似度，將樣本聚類到與簇中心最相似的簇。

（3）重新計算簇中心，即每個簇中所有樣本的均值。

（4）不斷重複步驟（2）、（3），直至標準測度函數（如均方差）收斂。

（5）評價：簇內樣本相似度，和簇間樣本相似度。對於簇內樣本相似度計算方法：如果採用距離度量，則可計算簇中心到簇內樣本的距離的均值；也可以計算簇內樣本間兩兩樣本距離的均值；如果採用密度度量，則每個簇可抽象爲一個以簇中心爲圓心，以簇中心到與距離其最遠的樣本的距離爲半徑的圓。再以簇中心爲圓心，從零逐漸增加半徑的單位量，計算每個環形區域內數據點的個數除以圓環面積，計算的所有結果取平均值作爲密度。

對於簇間樣本相似度計算方法：計算簇中心距離。

算法缺點：對髒數據敏感

3.2 k-medoids

和 k-means不同，其將每個簇中樣本距離簇內其他樣本距離最小的樣本作爲簇中心。

工作過程：

（1）從n個樣本中任意選擇k個樣本作爲初始簇中心，採用簇中心代表一個簇。

（2）根據樣本集合中其他樣本與簇中心樣本的相似度，將樣本聚類到與簇中心最相似的簇。

（3）重新計算簇中心，即每個簇中樣本距離簇內其他樣本距離最小的樣本作爲簇中心。

（4）不斷重複步驟（2）、（3），直至簇中心固定不變。

缺點：在選擇簇中心時增加了計算量

3.3 密度聚類

之後補上，曾經做數學建模時，有一塊用到密度聚類思想。

轉載請註明出處：https://blog.csdn.net/catchingSun/article/details/104851899

小女不才，尚有小羣，有意請加：

翻轉世界IT：386707638

碩博交流羣（僅限碩博）：774547075

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據挖掘-聚類算法

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

2020年上半年數據庫系統工程師考試

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

數據挖掘-聚類算法

藍橋杯：基礎練習十進制轉十六制

藍橋杯：基礎練習迴文數

藍橋杯：基礎練習楊輝三角形

解決ubuntu 12.04.2 無法進入圖形界面、無法全屏，安裝VMware tools

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結