聚類分析

每週一講，其實早不是每週了，可見人要是能夠做一件事情容易，堅持做就太難了，以後別自己給自己定目標，隨心情多好！

話是這麼說了，但還是沿用過去的方式來講講聚類分析Cluster Analysis吧！物以類聚，人以羣分，聚類分析是一種重要的多變量統計方法，但記住其實它是一種數據分析方法，不能進行統計推斷的。當然，聚類分析主要應用在市場細分等領域，我們也經常採用聚類分析技術來實現對抽樣框的分層，我就不多羅嗦了。

聚類分析：顧名思義是一種分類的多元統計分析方法。按照個體或樣品(individuals, objects or subjects)的特徵將它們分類，使同一類別內的個體具有儘可能高的同質性(homogeneity)，而類別之間則應具有儘可能高的異質性(heterogeneity)。

我們也可以對變量進行聚類—分類，但是更常見的還是對個體分類（樣本聚類——細分）。爲了得到比較合理的分類，首先要採用適當的指標來定量地描述研究對象（樣本或變量，常用的是樣本）之間的聯繫的緊密程度。常用的指標爲“距離”和“相似係數”，假定研究對象均用所謂的“點”來表示。
在聚類分析中，一般的規則是將“距離”較小的點或“相似係數”較大的點歸爲同一類，將“距離”較大的點或“相似係數”較小的點歸爲不同的類！（一般的相似係數就是相關係數了）

基本概念：

需要一組表示個體性質或特徵的變量，稱之爲聚類變量。根據個體或樣本之間聯繫的緊密程度進行分類。一般來說分類變量的組合都是由研究者規定的，不是像其它多元分析方法那樣估計推導出來的。
聚類分析前所有個體或樣本所屬的類別是未知的，類別個數一般也是未知的，分析的依據就是原始數據，沒有任何事先的有關類別的信息可參考。所以：嚴格說來聚類分析並不是純粹的統計技術，它不像其它多元分析法那樣，需要從樣本去推斷總體。聚類分析一般都涉及不到有關統計量的分佈，也不需要進行顯著性檢驗。聚類分析更像是一種建立假設的方法，而對假設的檢驗還需要藉助其它統計方法。

聚類方法：

聚類分析簡單、直觀。
聚類分析主要應用於探索性的研究，其分析的結果可以提供多個可能的解，選擇最終的解需要研究者的主觀判斷和後續的分析；
不管實際數據中是否真正存在不同的類別，利用聚類分析都能得到分成若干類別的解；
聚類分析的解完全依賴於研究者所選擇的聚類變量，增加或刪除一些變量對最終的解都可能產生實質性的影響。
研究者在使用聚類分析時應特別注意可能影響結果的各個因素。
異常值和特殊的變量對聚類有較大影響
當分類變量的測量尺度不一致時，需要事先做標準化處理。

當然，聚類分析不能做的事情是：

自動發現和告訴你應該分成多少個類——屬於非監督類分析方法
期望能很清楚的找到大致相等的類或細分市場是不現實的；
樣本聚類，變量之間的關係需要研究者決定；
不會自動給出一個最佳聚類結果；

我這裏提到的聚類分析主要是譜系聚類（hierarchical clustering）和快速聚類（K-means）、兩階段聚類（Two-Step）；

根據聚類變量得到的描述兩個個體間（或變量間）的對應程度或聯繫緊密程度的度量。
可以用兩種方式來測量：

採用描述個體對（變量對）之間的接近程度的指標，例如“距離”，“距離”越小的個體（變量）越具有相似性。
採用表示相似程度的指標，例如“相關係數”，“相關係數”越大的個體（變量）越具有相似性。

計算聚類——距離指標D(distance)的方法非常多：按照數據的不同性質，可選用不同的距離指標。歐氏距離(Euclidean distance)、歐氏距離的平方(Squared Euclidean distance)、曼哈頓距離(Block)、切比雪夫距離(Chebychev distance)、卡方距離(Chi-aquare measure) 等；相似性也有不少，主要是皮爾遜相關係數了！

注意：上面主要在譜系聚類方法中採用，但譜系聚類主要用在變量聚類上，如果對樣本聚類樣本不能太多了，否則你要等很長時間，還不一定有用！

總體推薦：

聚類變量的測量尺度不同，需要事先對變量標準化；
聚類變量中如果有些變量非常相關，意味着這個變量的權重會更大
歐式距離的平方是最常用的距離測量方法；
聚類算法要比距離測量方法對聚類結果影響更大；
標準化方法影響聚類模式：
變量標準化傾向產生基於數量的聚類；
樣本標準化傾向產生基於模式的聚類；
一般聚類個數在4－6類，不易太多，或太少；
數據挖掘軟件中的聚類更理想

    當然我現在聚類都用數據挖掘技術了，其實聚類分析採用數據挖掘技術更合理，畢竟是發現知識，我們事先不知道是否存在顯著差異的細分市場，而且往往在統計分析聚類中，需要研究者主觀給出聚類變量，得到的結果也可能是研究者或客戶能想到的，往往客戶最希望得到事先不知道的，直覺不能感知到的，數據挖掘就體現了這一點。當然採用數據挖掘軟件得到的聚類結果，也更直觀，最重要的是採用SPSS聚類的結果要呈現出來，是個體力活，用Clementine得到的結果就非常容易看出來和理解了！

    關於市場細分中的聚類分析，主要是採用兩階段聚類或快速聚類，一般要先進行因子分析，聚類分析，類的識別，聚成幾類，類的穩定性測試，選擇目標類，定位，描述細分市場，市場營銷組合等！

    我下一篇博客詳細描述！