數據分析實戰之K-Means（給球隊做聚類）

原創

2019-02-28 23:49

數據來源是簡單整理的2015-2019亞洲球隊的排名，如下圖所示。通過K-Means做簡單聚類分析。

1、數據加載

import numpy as np
import pandas as pd


data = pd.read_csv(r'C:\Users\hzjy\Desktop\data.csv',encoding='gbk')

train_x = data[['2019年國際排名','2018世界盃','2015亞洲盃']]

df = pd.DataFrame(train_x)

2、聚類一般要做數據標準化處理，採用Min-max 規範化

from sklearn import preprocessing
min_max_scaler = preprocessing.MinMaxScaler()
train_x = min_max_scaler.fit_transform(train_x)

3、K-Means聚類

from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=5)
kmeans.fit(train_x)
predict_y = kmeans.predict(train_x)

4、合併聚類結果插入到原數據中

result = pd.concat((data,pd.DataFrame(predict_y)),axis = 1)
result.rename({0:'聚類'},axis = 1,inplace = True)
result

這裏解釋下2個問題：

1）之所以用pd.DataFrame(predict_y) 是因爲pd.concat() 是根據軸作合併的，而predict_y是array數組類型，data是DataFrame類型，需要將predict_y的類型進行轉換

2）result.rename({0:'聚類'},axis = 1,inplace = True) 用 0:'聚類' 是因爲沒重名之前聚類結果這一列列名爲“0”，需要rename替換下。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Task2:數據的探索性分析（EDA）

Task2:數據的探索性分析（EDA）什麼是EDAEDA目標主要工作導入、觀察數據數據總覽相關統計量數據類型數據檢測缺失值檢測異常值檢測預測分佈總體分佈概況（無界約翰遜分佈等）查看偏度和峯度查看預測值的具體頻數特徵分析類別特徵un

2020-07-02 00:03:47

Task3 二手車數據特徵工程

Task3 特徵工程前言特徵工程是什麼特徵工程常見方法主要工作長尾截斷箱線圖去異常值缺失值處理特徵構造數據分桶（特徵離散化）歸一化對類別特徵one_hot編碼特徵篩選前言在之前的工作中Task2 數據探索性分析探索數據和了解

2020-07-02 00:03:47

高考英語詞頻統計

前言：受我表哥邀請，幫忙統計歷年的高考英語詞頻，並保存到表格中，這樣方便發給學生學習需要重點注意的單詞，正好他也對python感興趣，我就簡單的給他寫了一個小程序，每次把要統計的word文檔放入data文件中就雙擊寫好的程序可以

2020-06-27 09:51:05

數據科學家80%時間都花費在清洗任務上？

數據科學家80%時間都花費在清洗任務上？將數據清洗規則總結爲4個關鍵點：“完全合一” 完整性：單條數據是否存在空值，統計的字段是否完善。全面性：觀察某一列的全部數值，比如在 Excel 表中，我們選中一列，可以看到該列的平均

2020-06-23 03:05:55

數據集成：這些大號一共20億粉絲？

數據集成和數據變換數據集成就是將多個數據源合併存放在一個數據存儲中數據集成的兩種架構：ELT & ETL ETL就是Extract 、Transform 、Load的縮寫，包括數據抽取、轉換、加載三個過程，是進行數據挖掘工作之

2020-06-23 03:05:55

Python爬蟲：如何自動化下載王祖賢海報？

Python爬蟲：如何自動化下載王祖賢海報？爬蟲的流程如何編寫爬蟲來抓取數據？爬蟲實際上使用瀏覽器訪問的方式模擬了訪問網站的過程，整個過程有三個階段：打開網頁、提取數據和保存數據在Python中，這三個階段都有對應的工具可以

2020-06-23 03:05:55

決策樹（下）：泰坦尼克乘客生存預測

決策樹（下）：泰坦尼克乘客生存預測決策樹分類的應用場景有很多，比如在金融行業用決策樹做貸款風險評估，醫療行業用決策樹生成輔助診斷，用sklearn工具解決泰坦尼克乘客生存預測： sklearn中的決策樹模型 sklearn中自帶

2020-06-23 03:05:55

樸素貝葉斯分類（上）：如何讓機器判斷男女？

樸素貝葉斯分類（上）：如何讓機器判斷男女？當你不能準確預知一個事物本質的時候，可以依靠和事物本質相關的事件來進行判斷，如果事情發生的頻次多，則證明這個屬性更有可能存在貝葉斯原理貝葉斯解決一個叫“逆向概率”嘗試解答在沒有太多可

2020-06-23 03:05:55

決策樹（中）：CART，一顆是迴歸樹，另一顆是分類樹

決策樹（中）：CART，一顆是迴歸樹，另一顆是分類樹基於信息度量的不同方式，把決策樹分爲ID3算法、C4.5算法和CART算法，CART算法叫做分類迴歸樹，ID3和C4.5算法可以生成二叉樹或多叉樹，而CART只支持二叉樹，既可

2020-06-23 03:05:55

從0到1數據分析實戰學習筆記（二）數據清洗

爲什麼要學習數據清洗在數據挖掘中，數據清洗是前期準備工作，對於數據科學家來說，我們會遇到各種各樣的數據，在分析前，要投入大量的時間和精力把數據“整理裁剪”成自己想要或需要的樣子。使得數據標準、乾淨、連續，爲後續數據統計、數據挖掘

青花鱼罐头丨

2020-06-20 23:45:25

從0到1數據分析實戰學習筆記（五）樸素貝葉斯分析文本分類

樸素貝葉斯分析樸素貝葉斯。它是一種簡單但極爲強大的預測建模算法。之所以稱爲樸素貝葉斯，是因爲它假設每個輸入變量是獨立的。這是一個強硬的假設，實際情況並不一定，但是這項技術對於絕大部分的複雜問題仍然非常有效。樸素貝葉斯模型由兩種

青花鱼罐头丨

2020-06-20 23:45:25

從0到1數據分析實戰學習筆記（四）泰坦尼克乘客生存預測

項目實戰背景用決策樹進行項目的實戰用sklearn工具解決一個實際的問題：泰坦尼克號乘客的生存預測，我們可以得到部分的數據，可以從GitHub上下載https://github.com/fuzhipeng/Titanic_Da

青花鱼罐头丨

2020-06-20 23:45:25

從0到1數據分析實戰學習筆記（六）SVM乳腺癌檢測

SVM 支持向量機在機器學習中，SVM是有監督的學習模型。什麼是有監督的學習模型呢？它指的是我們需要事先對數據打上分類標籤，這樣機器就知道這個數據屬於哪個分類。同樣無監督學習，就是數據沒有被打上分類標籤，這可能是因爲我們不具備

青花鱼罐头丨

2020-06-20 21:39:28

從0到1數據分析實戰學習筆記（十一）Apriori發現規則

Apriori算法的工作原理 Apriori是聯規則挖掘的算法，關聯規則挖掘可以讓我們從數據集中發現項與項（item與item）之間的關係，它在我們的生活中有很多應用場景，“購物籃分析”就是一個常見的場景，這個場景可以從消費者交易

青花鱼罐头丨

2020-06-20 21:39:28

數據分析實戰之決策樹（泰坦尼克號乘客生存預測）

2020-06-04 06:47:23

24小時熱門文章

最新文章

最新評論文章