1. 算法思想
分級聚類方法(hierachical clustering)。聚類的結果可能是N類也可能是1類。
因此,在歸類的過程中可以從N類到1類逐級地進行類別劃分,求得一系列類別數從多到少的一個分類方案,然後根據一定的指標選擇中間某個適當的劃分方案作爲聚類的結果。
2. 具體步驟
- 初始化,每個樣本自成一個類
- 合併:通過兩個類之間的相似性度量,按照一定標準將兩個類合併爲一類,記錄下這兩個類之間的距離,其餘類保持不變。
- 重複2,直到所有樣本合併到一個類中。
聚類的結果稱爲系統樹圖(dendrogram),圖中最底層的每個節點都是一個樣本,樹枝的長度表達了類與類之間的距離關係。
3. 兩個類之間的相似性度量
- 最近距離(single linkage)
Δ(τi,τj)=y∈τi,y^∈taujminδ(y,y^)
- 最遠距離(complete linkage)
Δ(τi,τj)=y∈τi,y^∈τjmaxδ(y,y^)
- 均值距離(average linkage)
Δ(τi,τj)=δ(mi,mj)
其中,mi表示第i類的均值。
4. 缺點
- 分級聚類是一種局部搜索方法,有些情況下對樣本的噪聲比較敏感,個別樣本的變動可能導致聚類結果發生很大變化。
- 聚類樹的畫法不唯一。