每週一講,其實早不是每週了,可見人要是能夠做一件事情容易,堅持做就太難了,以後別自己給自己定目標,隨心情多好!
話是這麼說了,但還是沿用過去的方式來講講聚類分析Cluster Analysis吧!物以類聚,人以羣分,聚類分析是一種重要的多變量統計方法,但記住其實它是一種數據分析方法,不能進行統計推斷的。當然,聚類分析主要應用在市場細分等領域,我們也經常採用聚類分析技術來實現對抽樣框的分層,我就不多羅嗦了。
聚類分析:顧名思義是一種分類的多元統計分析方法。按照個體或樣品(individuals, objects or subjects)的特徵將它們分類,使同一類別內的個體具有儘可能高的同質性(homogeneity),而類別之間則應具有儘可能高的異質性(heterogeneity)。
我們也可以對變量進行聚類—分類,但是更常見的還是對個體分類(樣本聚類——細分)。爲了得到比較合理的分類,首先要採用適當的指標來定量地描述研究對象(樣本或變量,常用的是樣本)之間的聯繫的緊密程度。常用的指標爲“距離”和“相似係數”,假定研究對象均用所謂的“點”來表示。
在聚類分析中,一般的規則是將“距離”較小的點或“相似係數”較大的點歸爲同一類,將“距離”較大的點或“相似係數”較小的點歸爲不同的類!(一般的相似係數就是相關係數了)
基本概念:
需要一組表示個體性質或特徵的變量,稱之爲聚類變量。根據個體或樣本之間聯繫的緊密程度進行分類。一般來說分類變量的組合都是由研究者規定的,不是像其它多元分析方法那樣估計推導出來的。
聚類分析前所有個體或樣本所屬的類別是未知的,類別個數一般也是未知的,分析的依據就是原始數據,沒有任何事先的有關類別的信息可參考。所以:嚴格說來聚類分析並不是純粹的統計技術,它不像其它多元分析法那樣,需要從樣本去推斷總體。聚類分析一般都涉及不到有關統計量的分佈,也不需要進行顯著性檢驗。聚類分析更像是一種建立假設的方法,而對假設的檢驗還需要藉助其它統計方法。
聚類方法:
- 聚類分析簡單、直觀。
- 聚類分析主要應用於探索性的研究,其分析的結果可以提供多個可能的解,選擇最終的解需要研究者的主觀判斷和後續的分析;
- 不管實際數據中是否真正存在不同的類別,利用聚類分析都能得到分成若干類別的解;
- 聚類分析的解完全依賴於研究者所選擇的聚類變量,增加或刪除一些變量對最終的解都可能產生實質性的影響。
- 研究者在使用聚類分析時應特別注意可能影響結果的各個因素。
- 異常值和特殊的變量對聚類有較大影響
當分類變量的測量尺度不一致時,需要事先做標準化處理。
- 自動發現和告訴你應該分成多少個類——屬於非監督類分析方法
- 期望能很清楚的找到大致相等的類或細分市場是不現實的;
- 樣本聚類,變量之間的關係需要研究者決定;
- 不會自動給出一個最佳聚類結果;
根據聚類變量得到的描述兩個個體間(或變量間)的對應程度或聯繫緊密程度的度量。
可以用兩種方式來測量:
- 採用描述個體對(變量對)之間的接近程度的指標,例如“距離”,“距離”越小的個體(變量)越具有相似性。
- 採用表示相似程度的指標,例如“相關係數”,“相關係數”越大的個體(變量)越具有相似性。
注意:上面主要在譜系聚類方法中採用,但譜系聚類主要用在變量聚類上,如果對樣本聚類樣本不能太多了,否則你要等很長時間,還不一定有用!
總體推薦:
- 聚類變量的測量尺度不同,需要事先對變量標準化;
- 聚類變量中如果有些變量非常相關,意味着這個變量的權重會更大
- 歐式距離的平方是最常用的距離測量方法;
- 聚類算法要比距離測量方法對聚類結果影響更大;
- 標準化方法影響聚類模式:
- 變量標準化傾向產生基於數量的聚類;
- 樣本標準化傾向產生基於模式的聚類;
- 一般聚類個數在4-6類,不易太多,或太少;
- 數據挖掘軟件中的聚類更理想
當然我現在聚類都用數據挖掘技術了,其實聚類分析採用數據挖掘技術更合理,畢竟是發現知識,我們事先不知道是否存在顯著差異的細分市場,而且往往在統計分析聚類中,需要研究者主觀給出聚類變量,得到的結果也可能是研究者或客戶能想到的,往往客戶最希望得到事先不知道的,直覺不能感知到的,數據挖掘就體現了這一點。當然採用數據挖掘軟件得到的聚類結果,也更直觀,最重要的是採用SPSS聚類的結果要呈現出來,是個體力活,用Clementine得到的結果就非常容易看出來和理解了!
關於市場細分中的聚類分析,主要是採用兩階段聚類或快速聚類,一般要先進行因子分析,聚類分析,類的識別,聚成幾類,類的穩定性測試,選擇目標類,定位,描述細分市場,市場營銷組合等!
我下一篇博客詳細描述!