肘部法则求kmeans聚类最佳分类数K

原文链接:https://blog.csdn.net/hutao1101175783/article/details/77417186
K-Means算法是一个重复移动类中心点的过程,把类的中心点,也称重心(centroids),移动到其包含成员的平均位置,然后重新划分其内部成员。 是算法计算出的超参数,表示类的数量;K-Means可以自动分配样本到不同的类,但是不能决定究竟要分几个类。
K-Means的参数是类的重心位置和其内部观测值的位置。与广义线性模型和决策树类似,K-Means参数的最优解也是以成本函数最小化为目标。K-Means成本函数公式如下:

uk是第k 个类的重心位置。成本函数是各个类畸变程度(distortions)之和。每个类的畸变程度等于该类重心与其内部成员位置距离的平方和。若类内部的成员彼此间越紧凑则类的畸变程度越小,反之,若类内部的成员彼此间越分散则类的畸变程度越大。求解成本函数最小化的参数就是一个重复配置每个类包含的观测值,并不断移动类重心的过程。

#-*- coding:utf-8 -*-  

import numpy as np  
import matplotlib.pyplot as plt  
from sklearn.cluster import KMeans  
from scipy.spatial.distance import cdist  

import sys  
reload(sys)  
sys.setdefaultencoding('utf-8')  

x = np.array([1, 2, 3, 1, 5, 6, 5, 5, 6, 7, 8, 9, 7, 9])  
y = np.array([1, 3, 2, 2, 8, 6, 7, 6, 7, 1, 2, 1, 1, 3])  
data = np.array(list(zip(x, y)))  

# 肘部法则 求解最佳分类数  
# K-Means参数的最优解也是以成本函数最小化为目标  
# 成本函数是各个类畸变程度(distortions)之和。每个类的畸变程度等于该类重心与其内部成员位置距离的平方和  
'''''aa=[] 
K = range(1, 10) 
for k in range(1,10): 
    kmeans=KMeans(n_clusters=k) 
    kmeans.fit(data) 
    aa.append(sum(np.min(cdist(data, kmeans.cluster_centers_, 'euclidean'),axis=1))/data.shape[0]) 
plt.figure() 
plt.plot(np.array(K), aa, 'bx-') 
plt.show()'''  
#绘制散点图及聚类结果中心点  
plt.figure()  
plt.axis([0, 10, 0, 10])  
plt.grid(True)  
plt.plot(x,y,'k.')  
kmeans=KMeans(n_clusters=3)  
kmeans.fit(data)  
plt.plot(kmeans.cluster_centers_[:,0],kmeans.cluster_centers_[:,1],'r.')  
plt.show() 

待补充内容:
https://blog.csdn.net/ZhikangFu/article/details/48436257
https://blog.csdn.net/jacke121/article/details/78058182
https://blog.csdn.net/elaine_bao/article/details/50242867

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章