R做聚類分析

數據中心化與標準化變換:scale函數

scale(x, center = TRUE, scale = TRUE)
其中x是樣本構成的數據矩陣,center爲邏輯變量,表示對數據進行中心化變換,scale也爲邏輯變量,表示對數據進行中心化變換

距離計算函數dist:

dist(x,method=“euclidean”,diag=FALSE,upper=FALSE,p=2)
其中x是樣本矩陣或者數據框。
method表示計算哪種距離,所定義的距離有:
Euclide距離:“euclidean”
Chebyshev距離:“maxinum”
絕對值距離:“manhattan”
Lance距離:“canberra”
Minkowski距離:“minkowski”
定性變量距離:"binary"

diag 爲TRUE的時候給出對角線上的距離。
upper爲TURE的時候給出上三角矩陣上的值。
注: (1)歐氏距離:可以簡單的描述爲多維空間的點點之間的幾何距離,但歐式距離通常採用的是原始數據,而並非規劃化後的數據,不能消除量綱的影響,所以其優勢在於新增對象不會影響到任意兩個對象之間的距離。
(2)切比雪夫距離:切比雪夫距離主要表現爲在多維空間中,對象從某個位置轉移到另外一個對象所消耗的最少距離,因此可以簡單的描述爲用一維屬性決定某對象屬於哪個簇。
(3)曼哈頓距離:如果歐式距離看成是多維空間對象點點的直線距離,那麼曼哈頓距離就是計算從一個對象到另一個對象所經過的折線距離,但曼哈頓距離取消了歐式距離的平方,因此使得離羣點的影響減弱。

層次聚類

hclust函數提供了系統聚類的計算,plot函數可畫出系統聚類的樹形圖(或稱爲譜系圖)
hclust(d, method = “complete”, members=NULL)
其中d是由"dist"構成的結構,method是系統聚類的方法(缺省是最長

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章