分級聚類方法

1. 算法思想

分級聚類方法(hierachical clustering)。聚類的結果可能是NN類也可能是11類。

因此,在歸類的過程中可以從NN類到11類逐級地進行類別劃分,求得一系列類別數從多到少的一個分類方案,然後根據一定的指標選擇中間某個適當的劃分方案作爲聚類的結果。

2. 具體步驟

  1. 初始化,每個樣本自成一個類
  2. 合併:通過兩個類之間的相似性度量,按照一定標準將兩個類合併爲一類,記錄下這兩個類之間的距離,其餘類保持不變。
  3. 重複2,直到所有樣本合併到一個類中。

聚類的結果稱爲系統樹圖(dendrogram),圖中最底層的每個節點都是一個樣本,樹枝的長度表達了類與類之間的距離關係。

3. 兩個類之間的相似性度量

  1. 最近距離(single linkage)
    Δ(τi,τj)=minyτi,y^taujδ(y,y^) \Delta(\tau_i, \tau_j)=\min_{\boldsymbol{y} \in \tau_i, \hat{\boldsymbol{y}}\in tau_j}\delta(\boldsymbol{y}, \boldsymbol{\hat{y}})
  2. 最遠距離(complete linkage)
    Δ(τi,τj)=maxyτi,y^τjδ(y,y^) \Delta(\tau_i, \tau_j)=\max_{\boldsymbol{y} \in \tau_i, \hat{\boldsymbol{y}}\in \tau_j}\delta(\boldsymbol{y}, \boldsymbol{\hat{y}})
  3. 均值距離(average linkage)
    Δ(τi,τj)=δ(mi,mj) \Delta(\tau_i, \tau_j)=\delta(\boldsymbol{m_i}, \boldsymbol{m_j})
    其中,mi\boldsymbol{m_i}表示第ii類的均值。

4. 缺點

  1. 分級聚類是一種局部搜索方法,有些情況下對樣本的噪聲比較敏感,個別樣本的變動可能導致聚類結果發生很大變化。
  2. 聚類樹的畫法不唯一。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章