數學建模——多元分析(1)——聚類分析

一、聚類分析

1. 概述

  1. 聚類分析(cluster analyses)可作爲一種定量方法,從數據分析的角度,給出一個準確、細緻的分類工具。

2. 相似性度量

2.1. 樣本的相似性度量

1. 重點內容

  1. 核心思想用距離來度量樣本點間的相似程度。距離近的樣品聚爲一類。
    在這裏插入圖片描述
  2. 在聚類分析中,對於定量變量,常用的是 Minkowski 距離
    在這裏插入圖片描述
    在這裏插入圖片描述
  3. 在 Minkowski 距離中,常用的是歐氏距離,它的主要優點是當座標軸進行正交旋轉時,歐氏距離是保持不變的。因此,如果對原座標系進行平移和旋轉變換,則變換後樣本點間的距離和變換前完全相同。
  4. 採用 Minkowski 距離時,一定要採用相同量綱的變量。如果變量的量綱不同,測量值變異範圍相差懸殊時,建議首先進行數據的標準化處理,然後再計算距離。
  5. 在採用 Minkowski 距離時,還應儘可能地避免變量的多重相關性。多重相關性(multicollinearity)所造成的信息重疊,會片面強調某些變量的重要性。
  6. 由於 Minkowski 距離的這些缺點,一種改進的距離就是馬氏距離,定義如下:
    在這裏插入圖片描述
    其中x, y爲來自p 維總體Z的樣本觀測值,Σ爲Z的協方差矩陣,實際中Σ往往是不知道的,常常需要用樣本協方差來估計。馬氏距離對一切線性變換是不變的,故不受量綱的影響
  7. 此外,還可採用樣本相關係數夾角餘弦和其它關聯性度量作爲相似性度量。

2. 示例

下圖是數據的一般格式
在這裏插入圖片描述
則樣品與樣品之間的常用距離(樣品i與樣品j)
在這裏插入圖片描述
示例計算:
在這裏插入圖片描述
指標與指標之間的常用“距離”(指標i與指標j)
在這裏插入圖片描述
示例計算
在這裏插入圖片描述

2.2. 類與類間的相似性度量

1. 度量方法

  1. 由一個樣品組成的類是最基本的類。如果每一類都由一個樣品組成,那麼樣品間的距離就是類間距離
  2. 如果某一類包含不止一個樣品,那麼就要確定類間距離,類間距離是基於樣品間距離定義的。如果有兩個樣本類G1和G2,我們可以用下面的一系列方法度量它們間的距離:
    1. 最短距離法(nearest neighbor or single linkage method)
      在這裏插入圖片描述
      它的直觀意義爲兩個類中最近兩點間的距離

    2. 最長距離法(farthest neighbor or complete linkage method)

      在這裏插入圖片描述
      它的直觀意義爲兩個類中最遠兩點間的距離

    3. 重心法(centroid method)
      在這裏插入圖片描述
      其中 x\overline{x}y\overline{y}分別爲G

    4. 類平均法(group average method)
      在這裏插入圖片描述
      它等於G1 ,G2中兩兩樣本點距離的平均,式中n1 , n2 分別爲G1 ,G2中的樣本點個數。

    5. 離差平方和法(sum of squares method)
      在這裏插入圖片描述
      事實上,若 G1 ,G2內部點與點距離很小,則它們能很好地各自聚爲一類,並且這兩類又能夠充分分離(即D12很大),這時必然有D = D12 − D1 − D2 很大。因此,按定義可以認爲,兩類G1 ,G2之間的距離很大。

2. 更形象化地表達

在這裏插入圖片描述

2.2. 系統聚類法

1. 概述

系統聚類法是聚類分析方法中常用的一種方法。它的優點在於可以指出由粗到細的多種分類情況,典型的系統聚類結果可由一個聚類圖展示出來。
在這裏插入圖片描述
如何才能生成這樣的聚類圖呢?,其步驟如下:
在這裏插入圖片描述
顯而易見,這種系統歸類過程與計算類和類之間的距離有關,採用不同的距離定義,有可能得出不同的聚類結果

2.最短距離法

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
有了聚類圖,就可以按要求進行分類。可以看出,在這五個推銷員中w5的工作成績最佳,w3w4的工作成績最好,而w1w2的工作成績較差。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章