聚類分析


    每週一講,其實早不是每週了,可見人要是能夠做一件事情容易,堅持做就太難了,以後別自己給自己定目標,隨心情多好!

    話是這麼說了,但還是沿用過去的方式來講講聚類分析Cluster Analysis吧!物以類聚,人以羣分,聚類分析是一種重要的多變量統計方法,但記住其實它是一種數據分析方法,不能進行統計推斷的。當然,聚類分析主要應用在市場細分等領域,我們也經常採用聚類分析技術來實現對抽樣框的分層,我就不多羅嗦了。

    聚類分析:顧名思義是一種分類的多元統計分析方法。按照個體或樣品(individuals, objects or subjects)的特徵將它們分類,使同一類別內的個體具有儘可能高的同質性(homogeneity),而類別之間則應具有儘可能高的異質性(heterogeneity)。


    我們也可以對變量進行聚類—分類,但是更常見的還是對個體分類(樣本聚類——細分)。爲了得到比較合理的分類,首先要採用適當的指標來定量地描述研究對象(樣本或變量,常用的是樣本)之間的聯繫的緊密程度。常用的指標爲“距離”和“相似係數”,假定研究對象均用所謂的“點”來表示。
    在聚類分析中,一般的規則是將“距離”較小的點或“相似係數”較大的點歸爲同一類,將“距離”較大的點或“相似係數”較小的點歸爲不同的類!(一般的相似係數就是相關係數了)

    基本概念:

    需要一組表示個體性質或特徵的變量,稱之爲聚類變量。根據個體或樣本之間聯繫的緊密程度進行分類。一般來說分類變量的組合都是由研究者規定的,不是像其它多元分析方法那樣估計推導出來的。
    聚類分析前所有個體或樣本所屬的類別是未知的,類別個數一般也是未知的,分析的依據就是原始數據,沒有任何事先的有關類別的信息可參考。所以:嚴格說來聚類分析並不是純粹的統計技術,它不像其它多元分析法那樣,需要從樣本去推斷總體。聚類分析一般都涉及不到有關統計量的分佈,也不需要進行顯著性檢驗。聚類分析更像是一種建立假設的方法,而對假設的檢驗還需要藉助其它統計方法。

    聚類方法:

  • 聚類分析簡單、直觀。
  • 聚類分析主要應用於探索性的研究,其分析的結果可以提供多個可能的解,選擇最終的解需要研究者的主觀判斷和後續的分析;
  • 不管實際數據中是否真正存在不同的類別,利用聚類分析都能得到分成若干類別的解;
  • 聚類分析的解完全依賴於研究者所選擇的聚類變量,增加或刪除一些變量對最終的解都可能產生實質性的影響。
  • 研究者在使用聚類分析時應特別注意可能影響結果的各個因素。
  • 異常值和特殊的變量對聚類有較大影響
    當分類變量的測量尺度不一致時,需要事先做標準化處理。
當然,聚類分析不能做的事情是:
  • 自動發現和告訴你應該分成多少個類——屬於非監督類分析方法
  • 期望能很清楚的找到大致相等的類或細分市場是不現實的;
  • 樣本聚類,變量之間的關係需要研究者決定;
  • 不會自動給出一個最佳聚類結果;
     我這裏提到的聚類分析主要是譜系聚類(hierarchical clustering)和快速聚類(K-means)、兩階段聚類(Two-Step);

     根據聚類變量得到的描述兩個個體間(或變量間)的對應程度或聯繫緊密程度的度量。
     可以用兩種方式來測量:
  • 採用描述個體對(變量對)之間的接近程度的指標,例如“距離”,“距離”越小的個體(變量)越具有相似性。
  • 採用表示相似程度的指標,例如“相關係數”,“相關係數”越大的個體(變量)越具有相似性。
     計算聚類——距離指標D(distance)的方法非常多:按照數據的不同性質,可選用不同的距離指標。歐氏距離(Euclidean distance)、歐氏距離的平方(Squared Euclidean distance)、曼哈頓距離(Block)、切比雪夫距離(Chebychev distance)、卡方距離(Chi-aquare measure) 等;相似性也有不少,主要是皮爾遜相關係數了!
注意:上面主要在譜系聚類方法中採用,但譜系聚類主要用在變量聚類上,如果對樣本聚類樣本不能太多了,否則你要等很長時間,還不一定有用!
    
總體推薦:
  • 聚類變量的測量尺度不同,需要事先對變量標準化;
  • 聚類變量中如果有些變量非常相關,意味着這個變量的權重會更大
  • 歐式距離的平方是最常用的距離測量方法;
  • 聚類算法要比距離測量方法對聚類結果影響更大;
  • 標準化方法影響聚類模式:
  • 變量標準化傾向產生基於數量的聚類;
  • 樣本標準化傾向產生基於模式的聚類;
  • 一般聚類個數在4-6類,不易太多,或太少;
  • 數據挖掘軟件中的聚類更理想

    當然我現在聚類都用數據挖掘技術了,其實聚類分析採用數據挖掘技術更合理,畢竟是發現知識,我們事先不知道是否存在顯著差異的細分市場,而且往往在統計分析聚類中,需要研究者主觀給出聚類變量,得到的結果也可能是研究者或客戶能想到的,往往客戶最希望得到事先不知道的,直覺不能感知到的,數據挖掘就體現了這一點。當然採用數據挖掘軟件得到的聚類結果,也更直觀,最重要的是採用SPSS聚類的結果要呈現出來,是個體力活,用Clementine得到的結果就非常容易看出來和理解了!

    關於市場細分中的聚類分析,主要是採用兩階段聚類或快速聚類,一般要先進行因子分析,聚類分析,類的識別,聚成幾類,類的穩定性測試,選擇目標類,定位,描述細分市場,市場營銷組合等!
    
    我下一篇博客詳細描述!
發佈了11 篇原創文章 · 獲贊 9 · 訪問量 7萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章