超市用戶的k-means聚類處理

原創

nineteens

2019-09-20 14:16

　　導入超市用戶的數據

　　import pandas as pd

　　from sklearn.preprocessing import StandardScaler #標準差標準化

　　com = pd.read_csv('./company.csv',encoding='ansi')

　　導入剔除異常值的函數

　　def box_analysis(data):

　　'''

　　進行箱線圖分析，剔除異常值

　　:param data:

　　:return:

　　'''

　　qu = data.quantile(0.75)

　　ql = data.quantile(0.25)

　　iqr = qu - ql

　　#上限與下限 1.5可以微調

　　up = qu+1.5*iqr

　　low = ql-1.5*iqr

　　#進行比較運算

　　bool_id_1 = data<=up

　　bool_id_2 = data>=low

　　bool_num = bool_id_1 & bool_id_2

　　return bool_num

　　進行缺失值檢測

　　print(com.isnull().sum())

　　檢測結果無缺失值

　　篩選有用特徵,切片處理

　　data = com.iloc[:,-2:]

　　箱線圖分析來進行異常值檢測

　　按照平均每次消費金額進行異常值去除

　　bood_id_1 = box_analysis(data.iloc[:,0])

　　data = data.loc[bood_id_1,:]

　　按照平均消費週期進行異常值去除

　　bood_id_2 = box_analysis(data.iloc[:,1])

　　data = data.loc[bood_id_2,:]

　　構建需要特徵

　　data.loc[:,'每日消費金額'] = data.loc[:,'平均每次消費金額']/data.loc[:,'平均消費週期(天)']

　　標準化數據,量級不大，暫時不處理量級

　　stand = StandardScaler() #創建標準差示例

　　#先計算每一列的均值、標準差再進行轉化數據

　　x = stand.fit_transform(data) #進行標準化

　　把上面數據處理部分封裝進函數

　　def built_data():

　　#缺失值檢測

　　# print(com.isnull().sum())

　　#篩選有用特徵,切片處理

　　data = com.iloc[:,-2:]

　　# print(data)

　　#異常值檢測，箱線圖分析

　　#按照平均每次消費金額進行異常值去除

　　bood_id_1 = box_analysis(data.iloc[:,0])

　　data = data.loc[bood_id_1,:]

　　#按照平均消費週期進行異常值去除

　　bood_id_2 = box_analysis(data.iloc[:,1])

　　data = data.loc[bood_id_2,:]

　　#構建需要特徵

　　data.loc[:,'每日消費金額'] = data.loc[:,'平均每次消費金額']/data.loc[:,'平均消費週期(天)']

　　# print(data)

　　#標準化數據,量級不大，暫時不處理量級

　　#標準化數據

　　stand = StandardScaler() #創建標準差示例

　　#先計算每一列的均值、標準差再進行轉化數據

　　x = stand.fit_transform(data) #進行標準化

　　return data.values

　　繪圖部分函數如下

　　def show_res_km(data,y_predict,center):

　　'''無錫婦科檢查醫院 http://www.87554006.com/

　　進行結果展示

　　:param data:原始數據

　　:param y_predict:預測標籤

　　:param center:最終的聚類中心

　　:return:

　　'''

　　plt.figure()

　　#獲取原始數據的行數

　　index_num = data.shape[0]

　　colors = ['r','g','b','y']

　　for i in range(index_num):

　　plt.scatter(data[i,0],data[i,1],c=colors[int(y_predict[i])])

　　#散點圖的繪製，一個一個繪製

　　#聚類中心的位置

　　#b的話是描點劃線，bx的話是畫點但是不描線

　　plt.plot(center[:,0],center[:,1],'bx',marker='x',markersize=12)

　　plt.show()

　　調用函數來進行聚類

　　data = built_data()

　　#導包實現

　　k=3

　　km = KMeans(n_clusters=k)

　　#訓練數據

　　km.fit(data)

　　#進行預測 ,y_predict預測標籤

　　y_predict = km.predict(data)

　　#獲取聚類中心

　　center = km.cluster_centers_

　　print('預測值:\n',y_predict)

　　print('聚類中心:\n',center)

　　show_res_km(data.values,y_predict,center)

　　得出結果

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

超市用戶的k-means聚類處理

推薦2款開源、美觀的WinForm UI控件庫

NET9 AspnetCore將整合OpenAPI的文檔生成功能而無需三方庫

Python如何實現修改文件內容的方法

Python中的for i in range（range()函數的for循環）如何使用

數據清洗——cleancc簡介

LeetCode 之排列硬幣（數學解方程）

Java8新特性之 CompletableFuture方法詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結