關於聚類的學習

原創

食物发动机

2020-06-24 08:00

%聚類的方法：層次聚類、基於劃分的聚類、基於密度的聚類

(1)層次聚類：適用於小樣本數據。可以形成相似度層次圖譜，便於直觀地確定類之間的劃分。該方法一邊探索樣本特徵，一邊進行聚類，得到業務可解釋性強的分類，但是難以處理大量樣本。

(2)基於劃分的聚類(k- means)：適用於大樣本數據。其將觀測分爲預先指定的、不重疊的類，但是不能提供類相似度信息。該算法需要事先決定聚類個數，這是使用該算法的難點。

(3)基於密度的聚類：適用於大樣本數據。基於劃分的聚類方法只適用於樣本形態爲球狀簇時的情況。當分佈不規則時，則需要使用本方法。商業數據分析中，該算法主要用於發現異常，比如欺詐篩選、違規交易識別、去除異常值。

%常見的距離測量公式

①閃可夫斯基距離( Minkowski)，用於連續型數據，其中包括歐式距離：

dist(x,y)=xi減yi的絕對值的p次方相加，i從1到n，然後開p方，其中p=1時爲街區(Bbok)距離，P=2時爲歐式距離

②傑卡德相似係數(Jacard)，用於分類數據：J(A,B)=A交B的絕對值除以A並B的絕對值,A、B爲各自變量分類水平的集合。

③餘弦相似度( cosine similarity)：cos角度等於a轉置乘b除以a的絕對值乘b的絕對值,a、b爲向量，該測量實際反映了向量之間夾角的餘弦值。等於1時，表明兩個向量方向完全相同；越接近1,表明兩個向量越相似。

%標準化方法：中心標準化和極值標準化

中心標準化變換後的數據均值爲0，標準差爲1，消去了量綱的影響。當抽樣樣本改變時，它仍能保持相對穩定性。

公式爲每個值減去均值的差除以標準差

極值標準化變換後的數據取值在[0,1]內，極差爲1，無量綱。

公式爲每個值減去最小值的差除以最大值減最小值的差

%k-means聚類原理

k- means是一種經典的聚類算法。該算法將給定的一系列N維向量和一個聚類數目的變量k,聚爲k類。通常我們將每個向量映射爲歐氏空間裏的一個點，兩點距離越近越相似，即把歐氏距離作爲相異性度量。k- means是一種迭代式( iterative)算法，此聚類過程先對樣本觀測點粗略分類，然後按某種最優準則逐步修改分類，直至最優爲止。k均值法是快速聚類的重要方法，主要分爲以下4個步驟。
(1)設定k值，確定聚類數(軟件隨機分配聚類中心所需的種子)。

(2)計算每個記錄到類中心的距離(歐氏距離)，並分成k類。

(3)然後把k類中心(均值)作爲新的中心，重新計算距離

(4)選代到收斂標準停止。

%缺點

(1)需要事先指定k值作爲類簇個數。

(2)只能對數值數據進行處理。
(3)只能保證是局部最優，而不一定是全局最優(不同的起始點可能導致不同的結果)。
(4)不適合發現非凸形狀的簇或者大小差別很大的簇。
(5)對噪聲和孤立點數據敏感
所以在進行 k-means聚類時，需要進行數據標準化，去異常值，而且需要對數據進行可視化以觀察類簇的形狀。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

關於聚類的學習

關於聚類的學習

深度學習——卷積

python實現遠程連接數據庫定時獲取數據

更換pip源（普通方法沒成功可以試試）

計算機專業求職書籍摘取

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結