scikit-learn：聚類算法K-Means

原創

2020-02-23 07:17

class sklearn.cluster.KMeans (n_clusters=8, 
								init=’k-means++’, 
								n_init=10, 
								max_iter=300, 
								tol=0.0001,
								precompute_distances=’auto’, 
								verbose=0, 
								random_state=None, 
								copy_x=True, 
								n_jobs=None, 
								algorithm=’auto’
							)

from sklearn.metrics import silhouette_score
from sklearn.metrics import silhouette_samples
X
y_pred
silhouette_score(X,y_pred)
silhouette_score(X,cluster_.labels_)
silhouette_samples(X,y_pred)

from sklearn.metrics import calinski_harabaz_score
X
y_pred
calinski_harabaz_score(X, y_pred)

雖然calinski-Harabaz指數沒有界，在凸型的數據上的聚類也會表現虛高。但是比起輪廓係數，它有一個巨大的優
點，就是計算非常快速。

X y
plus = KMeans(n_clusters = 10).fit(X)
plus.n_iter_
random = KMeans(n_clusters = 10,init="random",random_state=420).fit(X)
random.n_iter_

random = KMeans(n_clusters = 10,init="random",max_iter=10,random_state=420).fit(X)
y_pred_max10 = random.labels_
silhouette_score(X,y_pred_max10)
random = KMeans(n_clusters = 10,init="random",max_iter=20,random_state=420).fit(X)
y_pred_max20 = random.labels_
silhouette_score(X,y_pred_max20)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

爲程序員和新手準備的 8 大 Python 工具

Python 是一種開源編程語言，用於 Web 編程、數據科學、人工智能和許多科學應用。學習 Python 使程序員能夠專注於解決問題，而不是專注於語法，其豐富的庫賦予它完成偉大任務所需的力量。 1) IDLE 安裝 Python 時

2024-05-14 01:06:43

聚類（Clustering）之GMM

這一篇描述高斯混合聚類（Gaussian mixture models, GMM）。GMM假定數據滿足多個高斯分佈，可看作是K-means的一個推廣。此外，它還能通過貝葉斯信息準則（Bayesian Information Criterio

2022-04-30 12:19:23

【吳恩達課程使用】pip安裝pandas失敗-anaconda各種玄學T-T-從新開始搭建環境

【吳恩達課程使用】安裝pandas失敗-從新開始搭建環境在第五課第二週的任務2中，虛擬環境缺少pandas，sklearn依賴，因爲用pip比較順手，就直接使用pip安裝，結果各種anaconda環境不支持，在自己的再三調試後，整個an

2021-12-25 21:43:14

通往數據分析平民化的成功之路

今天，每家公司都是數據公司，人人都是數據專家。不論您是信貸經理、會計師、銷售、人事經理還是工程師，這都不影響您進行數據處理並從中洞察先機。正是因此，平民數據科學家（CDS）這一概念應運而生，各行業的從業者們正藉助數據和分析模型來獲取與其專業

2021-12-25 21:15:29

XGBoost和LightGBM

這兩個模型都屬於集成學習中的樹模型，每個機器學習模型都有它特定的應用場景，不同的數據集適合用到的模型是不一樣的。結構化數據、非結構化數據結構化數據：規整，維度固定；一般我們的表格數據都屬於結構化數據。非結構化數據：非規整，維度不固定

2021-10-04 09:18:25

機器學習基礎篇：支持向量機（SVM）理論與實踐

↑↑↑點擊上方藍字，回覆資料，10個G的驚喜編譯 | AI有道什麼是支持向量機（SVM）？支持向量機 (SVM) 是一種相對簡單的監督機器學習算法，用於解決分類或迴歸問題。它更適合分類，但有時對迴歸也非常有用。SVM算法的本

機器學習算法與Python實戰

2021-09-15 21:13:41

【機器學習】深入探討，爲什麼要做特徵歸一化/標準化？

↑↑↑點擊上方藍字，回覆資料，10個G的驚喜作者丨shine-lee 編輯丨極市平臺來源丨https://blog.csdn.net/blogshinelee/article/details/102875044 導

機器學習算法與Python實戰

2021-09-09 21:12:51

深度學習“四大名著”發佈！Python、TensorFlow、機器學習、深度學習四件套（附免費下載）

Python 程序員深度學習的“四大名著”：這四本書着實很不錯！我們都知道現在機器學習、深度學習的資料太多了，面對海量資源，往往陷入到“無從下手”的困惑出境。而且並非所有的書籍都是優質資源，浪費大量的時間是得不償失的。給大家推薦這

機器學習算法與Python實戰

2021-08-02 21:14:05

常用構建數據科學應用程序的七個Python庫

當我開始學習數據科學的旅程時，這些都是我腦海中一直存在的問題。我學數據科學的目的不僅僅是爲了開發模型或清理數據，我想製作人們可以使用的應用程序，我正在尋找一種快速的方法來製作MVP(最小可行產品)來測試想法。如果你是一名數據科

Linux就該這麼學

2021-05-10 21:22:25

機器學習：從零開始學習梯度下降

作者：SETHNEHA 翻譯：王可汗校對：陳丹梯度下降是一個需要理解的重要算法，因爲它是機器學習和深度學習中使用的許多更先進算法的基礎。因此，掌握梯度下降的內部工作原理對任何計劃進一步探索機器學習算法的人來

機器學習算法與Python實戰

2021-03-22 21:14:52

機器學習中必知必會的 3 種特徵選取方法！

隨着深度學習的蓬勃發展，越來越多的小夥伴開始嘗試搭建深層神經網絡應用於工作場景中，認爲只需要把數據放入模型中，調優模型參數就可以讓模型利用自身機制來選擇重要特徵，輸出較好的數據結果。在現實工作場景中，受限制數據和時間，這樣的做法其實並

機器學習算法與Python實戰

2021-03-22 21:14:51

Pandas創始人手把手教你：利用Python進行數據分析（思維導圖）

導讀：Python是目前數據科學領域的王者語言，衆多科學家、工程師、分析師都使用它來完成數據相關的工作。由於Python具有簡單易學、語法靈活的特點，很多需要處理數據的人士想要學習，主要有兩大類：財經類、統計類背

2021-03-22 21:14:19

100天搞定機器學習|Day59 主成分分析(PCA)原理及使用詳解

↑↑↑點擊上方藍字，回覆資料，10個G的驚喜 100天搞定機器學習|Day58 機器學習入門：硬核拆解GBDT 數學概念方差：用來衡量隨機變量與其數學期望（均值）之間的偏離程度。統計中的方差（樣本方差）是各個數據分別與其平均數之差

2021-02-18 21:13:07

兩步幫你快速選擇SKlearn機器學習模型

Scikit-learn，簡稱Sklearn，是使用最廣泛的開源Python機器學習庫。它基於Numpy和Scipy，提供了大量用於數據挖掘和機器學習分析、預測的工具，包括數據預處理、可視化、交叉驗證和多種機器學習算法。其中提供的模

機器學習算法與Python實戰

2021-02-10 21:12:43

乾貨 | 基於 Python 的信用評分模型實戰！

來源 | 知乎作者 | Carl 文章鏈接 | https://zhuanlan.zhihu.com/p/35284849 信用評分模型可用“四張卡”來表示，分別是 A卡（Application score card，申請評分卡）、

2021-02-01 09:08:41

24小時熱門文章

最新文章

最新評論文章