聚類（上）

1.概述
聚類分析(cluster analysis)是將樣品個體或指標變量按其具有的特性進行分類的一種統計分析方法。

對樣品進行聚類，稱爲樣品(Q型)聚類分析。其目的是將分類不明確的樣品按性質相似程度分成若干組，從而發現同類樣品的共性和不同類樣品間的差異。

對指標進行聚類，稱爲指標（R型）聚類分析。其目的是將分類不明確的指標按性質相似程度分成若干組，從而在儘量不損失信息的條件下，用一組少量的指標來代替原來的多個指標。

2.典型的數據聚類基本步驟如下：
(1)對數據集進行表示和預處理，包括數據清洗、特徵選擇或特徵抽取；
(2)給定數據之間的相似度或相異度及其定義方法；
(3)根據相似度，對數據進行劃分，即聚類；
(4)對聚類結果進行評估。

3.聚類算法的兩個基本問題
性能度量和距離度量。

一、性能度量

聚類性能度量亦稱聚類“有效性指標”。對聚類結果通過某種性能度量來評估其好壞，可將其作爲聚類過程的優化目標。

目標：簇內相似度高，簇間相似度低。

聚類性能度量大致有兩類：
1）將聚類結果與某個“參考模型”進行比較，稱爲“外部指標”。
2）直接考察聚類結果而不利用任何參考模型，稱爲“內部指標”。

二、距離度量

相似性度量：

閔可夫斯基距離可用於有序屬性。

p=2

p=1

對無序屬性採用VDM（Value difference Metric）,

當樣本空間中不同屬性的重要性不同時，可使用“加權距離”（weighted distance）.以加權閔可夫斯基距離爲例：

其中，權重表徵不同屬性的重要性，通常權重之和爲1.

一般說來，同一批數據採用不同的距離公式，會得到不同的分類結果。產生不同結果的原因，主要是由於不同的距離公式的側重點和實際意義都有不同。因此我們在進行聚類分析時，應注意距離公式的選擇。通常選擇距離公式應注意遵循以下的基本原則：

（1）要考慮所選擇的距離公式在實際應用中有明確的意義。如歐氏距離就有非常明確的空間距離概念。馬氏距離有消除量綱影響的作用。

（2）要綜合考慮對樣本觀測數據的預處理和將要採用的聚類分析方法。如在進行聚類分析之前已經對變量作了標準化處理，則通常就可採用歐氏距離。

（3）要考慮研究對象的特點和計算量的大小。樣品間距離公式的選擇是一個比較複雜且帶有一定主觀性的問題，我們應根據研究對象的特點不同做出具體分折。實際中，聚類分析前不妨試探性地多選擇幾個距離公式分別進行聚類，然後對聚類分析的結果進行對比分析，以確定最合適的距離測度方法。

三、相似係數度量

相似係數體現對象間的相似程度，反映樣本之間相對於某些屬性的相似程度。確定相似係數有很多方法，這裏列出一些常用的方法，可以根據實際問題選擇使用。