R | NbClust聚類分析

原創

2020-06-16 02:34


library("factoextra")
library("NbClust")
data("USArrests")

### 數據標準化
data =  scale(USArrests)
head(data, n=5)


#確認分類數目
set.seed(1234) #因爲method選擇的是kmeans，所以如果不設定種子，每次跑得結果可能不同
nb_clust <- NbClust(data,  distance = "euclidean",
                    min.nc=2, max.nc=15, method = "kmeans",
                    index = "alllong", alphaBeale = 0.1)

#確認分類數目
fviz_nbclust(data, kmeans, method = "wss") + geom_vline(xintercept = 4, linetype = 2)

#利用k-mean是進行聚類
km_fit = kmeans(data, 4, nstart = 25) ## nstart 重複迭代kmeans的次數
print(km_fit)

fviz_cluster(km_fit, data, palette = c("#2E9FDF", "#00AFBB", "#E7B800", "#FC4E07"),  geom = "point" ,ellipse.type = "convex", star.plot = TRUE, repel = TRUE, ggtheme = theme_grey() )

#先求樣本之間兩兩相似性 
result <- dist(data, method = "euclidean")
#產生層次結構
result_hc <- hclust(d = result, method = "ward.D2")
#進行初步展示
fviz_dend(result_hc, cex = 0.6)

fviz_dend(result_hc, k = 4, cex = 0.5, k_colors = c("#2E9FDF", "#00AFBB", "#E7B800", "#FC4E07") )

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

R | 卡方分析

卡方檢驗，又稱χ2檢驗，是一種非參數檢驗，主要是比較兩個以及兩個以上樣本率以及兩個分類變量之間是否具有顯著的相關性，其根本思想是統計樣本的實際觀測值與理論推斷值之間的偏離程度。卡方檢驗有3種推導過程：四格表法的卡方檢驗; 行列表法的卡

2020-06-16 02:34:13

R | 方差分析

方差分析（analysis of variance ， ANOVA ）：用於兩個或兩個以上樣本均數的比較，還可分析兩個或多個研究因素的交互作用以及迴歸方程的線性假設檢驗等。（涉及總變異、組內變異、組間變異、自由度）基本思

2020-06-16 02:34:13

R | T檢驗

假設檢驗（hypothesis testing ）對總體的某種規律提出一個假設，通過樣本數據推斷，決定是否拒絕這一假設，這樣的統計活動，稱爲假設檢驗。 T檢驗概述：T檢驗，是用於檢驗兩個小樣本的平均值差異程度的檢驗

2020-06-16 02:34:13

R | 參數傳遞函數: getopt()

getopt(),是getopt包的函數，需要先按照getopt包 getopt(spec = NULL, opt = commandArgs(TRUE),command = get_Rscript_filename(), usage =

2020-06-16 02:34:13

R | data frame去掉是零的行？

*** 去掉全爲零的行情況一：若爲多列數據框 data [which(rowSums(data) > 0),] *** 去掉只要有一列爲零的行 data[which(rowSums(data==0)==0),] >str(data) d

2020-06-16 02:34:13

R | scale()函數標準化

2020-02-23 18:12:55

R | failed to load cairo DLL

2020-02-23 18:12:55

R | 卡方分析

卡方檢驗，又稱χ2檢驗，是一種非參數檢驗，主要是比較兩個以及兩個以上樣本率以及兩個分類變量之間是否具有顯著的相關性，其根本思想是統計樣本的實際觀測值與理論推斷值之間的偏離程度。卡方檢驗有3種推導過程：四格表法的卡方檢驗; 行列表法的卡

2020-06-16 02:34:13

R | 方差分析

方差分析（analysis of variance ， ANOVA ）：用於兩個或兩個以上樣本均數的比較，還可分析兩個或多個研究因素的交互作用以及迴歸方程的線性假設檢驗等。（涉及總變異、組內變異、組間變異、自由度）基本思

2020-06-16 02:34:13

R | T檢驗

假設檢驗（hypothesis testing ）對總體的某種規律提出一個假設，通過樣本數據推斷，決定是否拒絕這一假設，這樣的統計活動，稱爲假設檢驗。 T檢驗概述：T檢驗，是用於檢驗兩個小樣本的平均值差異程度的檢驗

2020-06-16 02:34:13

R | 參數傳遞函數: getopt()

getopt(),是getopt包的函數，需要先按照getopt包 getopt(spec = NULL, opt = commandArgs(TRUE),command = get_Rscript_filename(), usage =

2020-06-16 02:34:13

R | data frame去掉是零的行？

*** 去掉全爲零的行情況一：若爲多列數據框 data [which(rowSums(data) > 0),] *** 去掉只要有一列爲零的行 data[which(rowSums(data==0)==0),] >str(data) d

2020-06-16 02:34:13

R | scale()函數標準化

2020-02-23 18:12:55

R | failed to load cairo DLL

2020-02-23 18:12:55

24小時熱門文章

druid數據源 xml配置

最新文章

最新評論文章