聚類分析（cluster analysis）

原創

2019-04-23 15:06

聚類定義：

依據研究對象（樣品或指標）的特徵，對其進行分類的方法，減少研究對象的數目。

各類事物缺乏可靠的歷史資料，無法確定共有多少類別，目的是將性質相近事物歸入一類。

各指標之間具有一定的相關關係。

聚類分析(cluster analysis)是一組將研究對象分爲相對同質的羣組(clusters)的統計分析技術。聚類分析區別於分類分析(classification analysis) ，後者是有監督的學習。

變量類型：定類變量、定量（離散和連續）變量

劃分聚類方法：

Kmeans:

對於給定的樣本集，按照樣本之間的距離大小，將樣本集劃分爲K個簇。讓簇內的點儘量緊密的連在一起，而讓簇間的距離儘量的大。

步驟1：取得k個初始中心點

步驟2：利用中心點劃分樣本集爲k個簇

步驟3：根據已經被分類的數據分別重新計算各自的中心點，如果中心點發生變化回到步驟二，未發生變化轉到步驟4

步驟4：收斂

缺點：

初始值敏感、採用迭代方法，得到的結果只是局部最優、K值的選取不好把握、對於不是凸的數據集比較難收斂

如何衡量Kmeans 算法的精確度？

SSE(Sum of Square Error) 誤差平方和， SSE越小，精確度越高。

改進算法：二分Kmeans 算法

首先將所有點作爲一個簇，然後將其一分爲二。

每次選擇一個簇一分爲二，選取簇的依據取決於其是否能最大程度降低SSE即選取聚類後SSE最小的一個簇進行劃分。

直至有k個簇

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.