聚類分析(cluster analysis)

聚類定義:

依據研究對象(樣品或指標)的特徵,對其進行分類的方法,減少研究對象的數目。

各類事物缺乏可靠的歷史資料,無法確定共有多少類別,目的是將性質相近事物歸入一類。

各指標之間具有一定的相關關係。

聚類分析(cluster analysis)是一組將研究對象分爲相對同質的羣組(clusters)的統計分析技術。 聚類分析區別於分類分析(classification analysis) ,後者是有監督的學習。

變量類型:定類變量、定量(離散和連續)變量

劃分聚類方法:

Kmeans: 

對於給定的樣本集,按照樣本之間的距離大小,將樣本集劃分爲K個簇。讓簇內的點儘量緊密的連在一起,而讓簇間的距離儘量的大。

步驟1:取得k個初始中心點

步驟2:利用中心點劃分樣本集爲k個簇

步驟3:根據已經被分類的數據分別重新計算各自的中心點,如果中心點發生變化回到步驟二,未發生變化轉到步驟4

步驟4:收斂

 

缺點:

初始值敏感、採用迭代方法,得到的結果只是局部最優、K值的選取不好把握、對於不是凸的數據集比較難收斂

 

如何衡量Kmeans 算法的精確度?

SSE(Sum of Square Error) 誤差平方和, SSE越小,精確度越高。

改進算法:二分Kmeans 算法

首先將所有點作爲一個簇,然後將其一分爲二。

每次選擇一個簇一分爲二,選取簇的依據取決於其是否能最大程度降低SSE即選取聚類後SSE最小的一個簇進行劃分。

直至有k個簇

參考資料:https://www.cnblogs.com/pinard/p/6164214.html

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章