k-prototypes聚類算法

原創

2022-02-11 13:02

1 k-prototypes聚類

K-prototype是K-means與K-modes的一種集合形式，適用於數值類型與字符類型集合的混合型數據。

k-prototypes算法在聚類的過程中，是將數據的數值型變量和類別型變量拆開，分開計算樣本間變量的距離，再將兩者相加，視爲樣本間的距離。

k-prototypes聚類的準則就是使用一個合適的損失函數去度量數值型和分類變量對原型的距離；

1.隨機選取k個初始原型(中心點)；

2.針對數據集中的每個樣本點，計算樣本點與k個原型的距離（數值型變量計算歐氏距離，類別型變量計算漢明距離），將樣本點劃分到離它最近的中心點所對應的類別中；

3.類別劃分完成後，重新確定類別的原型，數值型變量樣本取值的均值作爲新的原型的特徵取值，類別型變量樣本取值的衆數作爲新的原型的特徵取值；

4.重複步驟2 3，直到沒有樣本改變類別，返回最後的聚類結果。

from kmodes.kprototypes import KPrototypes

手肘法（elbow method）
手肘法的核心指標是SSE(sum of the squared errors，誤差平方和)，

簡單說，加入k值=1，那麼誤差會極大，加入k值趨向於樣本量，那麼每一個樣本點就是一個簇，那肯定沒有誤差，但是脫離聚類算法本意。我們想找的，就是隨着k值不斷增加，誤差越來越小，到底達到那個k值的時候，誤差平方SSE會開始不再“明顯大幅度降低”，而趨於平緩。這個圖做出來就像一個手肘一樣，因此叫手肘法。

sklearn.externals.joblib函數是用在0.21及以前的版本中，在最新的版本中，該函數應被棄用

安裝：pip install joblib

import joblib
# 4.3 模型保存
joblib.dump(estimator, './test.pkl')  # estimator: 指的是訓練好的模型實例(評估器)
# 4.4 模型加載
estimator = joblib.load("./test.pkl")

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

k-prototypes聚類算法