關於聚類的學習

%聚類的方法:層次聚類、基於劃分的聚類、基於密度的聚類

(1)層次聚類:適用於小樣本數據。可以形成相似度層次圖譜,便於直觀地確定類之間的劃分。該方法一邊探索樣本特徵,一邊進行聚類,得到業務可解釋性強的分類,但是難以處理大量樣本。

(2)基於劃分的聚類(k- means):適用於大樣本數據。其將觀測分爲預先指定的、不重疊的類,但是不能提供類相似度信息。該算法需要事先決定聚類個數,這是使用該算法的難點。

(3)基於密度的聚類:適用於大樣本數據。基於劃分的聚類方法只適用於樣本形態爲球狀簇時的情況。當分佈不規則時,則需要使用本方法。商業數據分析中,該算法主要用於發現異常,比如欺詐篩選、違規交易識別、去除異常值。

%常見的距離測量公式

①閃可夫斯基距離( Minkowski),用於連續型數據,其中包括歐式距離:

dist(x,y)=xi減yi的絕對值的p次方相加,i從1到n,然後開p方,其中p=1時爲街區(Bbok)距離,P=2時爲歐式距離

②傑卡德相似係數(Jacard),用於分類數據:J(A,B)=A交B的絕對值除以A並B的絕對值,A、B爲各自變量分類水平的集合。

③餘弦相似度( cosine similarity):cos角度等於a轉置乘b除以a的絕對值乘b的絕對值,a、b爲向量,該測量實際反映了向量之間夾角的餘弦值。等於1時,表明兩個向量方向完全相同;越接近1,表明兩個向量越相似。

%標準化方法:中心標準化和極值標準化

中心標準化變換後的數據均值爲0,標準差爲1,消去了量綱的影響。當抽樣樣本改變時,它仍能保持相對穩定性。

公式爲每個值減去均值的差除以標準差

極值標準化變換後的數據取值在[0,1]內,極差爲1,無量綱。

公式爲每個值減去最小值的差除以最大值減最小值的差

%k-means聚類原理

k- means是一種經典的聚類算法。該算法將給定的一系列N維向量和一個聚類數目的變量k,聚爲k類。通常我們將每個向量映射爲歐氏空間裏的一個點,兩點距離越近越相似,即把歐氏距離作爲相異性度量。k- means是一種迭代式( iterative)算法,此聚類過程先對樣本觀測點粗略分類,然後按某種最優準則逐步修改分類,直至最優爲止。k均值法是快速聚類的重要方法,主要分爲以下4個步驟。
(1)設定k值,確定聚類數(軟件隨機分配聚類中心所需的種子)。

(2)計算每個記錄到類中心的距離(歐氏距離),並分成k類。

(3)然後把k類中心(均值)作爲新的中心,重新計算距離

(4)選代到收斂標準停止。

%缺點

(1)需要事先指定k值作爲類簇個數。

(2)只能對數值數據進行處理。
(3)只能保證是局部最優,而不一定是全局最優(不同的起始點可能導致不同的結果)。
(4)不適合發現非凸形狀的簇或者大小差別很大的簇。
(5)對噪聲和孤立點數據敏感
所以在進行 k-means聚類時,需要進行數據標準化,去異常值,而且需要對數據進行可視化以觀察類簇的形狀。
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章