超市用戶的k-means聚類處理

  導入超市用戶的數據

  import pandas as pd

  from sklearn.preprocessing import StandardScaler #標準差標準化

  com = pd.read_csv('./company.csv',encoding='ansi')

  


  導入剔除異常值的函數

  def box_analysis(data):

  '''

  進行箱線圖分析,剔除異常值

  :param data:

  :return:

  '''

  qu = data.quantile(0.75)

  ql = data.quantile(0.25)

  iqr = qu - ql

  #上限與下限 1.5可以微調

  up = qu+1.5*iqr

  low = ql-1.5*iqr

  #進行比較運算

  bool_id_1 = data<=up

  bool_id_2 = data>=low

  bool_num = bool_id_1 & bool_id_2

  return bool_num

  進行缺失值檢測

  print(com.isnull().sum())

  檢測結果無缺失值

  篩選有用特徵,切片處理

  data = com.iloc[:,-2:]

  


  箱線圖分析來進行異常值檢測

  按照平均每次消費金額進行異常值去除

  bood_id_1 = box_analysis(data.iloc[:,0])

  data = data.loc[bood_id_1,:]

  按照平均消費週期進行異常值去除

  bood_id_2 = box_analysis(data.iloc[:,1])

  data = data.loc[bood_id_2,:]

  構建需要特徵

  data.loc[:,'每日消費金額'] = data.loc[:,'平均每次消費金額']/data.loc[:,'平均消費週期(天)']

  標準化數據,量級不大,暫時不處理量級

  stand = StandardScaler() #創建標準差示例

  #先計算每一列的均值、標準差再進行轉化數據

  x = stand.fit_transform(data) #進行標準化

  把上面數據處理部分封裝進函數

  def built_data():

  #缺失值檢測

  # print(com.isnull().sum())

  #篩選有用特徵,切片處理

  data = com.iloc[:,-2:]

  # print(data)

  #異常值檢測,箱線圖分析

  #按照平均每次消費金額進行異常值去除

  bood_id_1 = box_analysis(data.iloc[:,0])

  data = data.loc[bood_id_1,:]

  #按照平均消費週期進行異常值去除

  bood_id_2 = box_analysis(data.iloc[:,1])

  data = data.loc[bood_id_2,:]

  #構建需要特徵

  data.loc[:,'每日消費金額'] = data.loc[:,'平均每次消費金額']/data.loc[:,'平均消費週期(天)']

  # print(data)

  #標準化數據,量級不大,暫時不處理量級

  #標準化數據

  stand = StandardScaler() #創建標準差示例

  #先計算每一列的均值、標準差再進行轉化數據

  x = stand.fit_transform(data) #進行標準化

  return data.values

  繪圖部分函數如下

  def show_res_km(data,y_predict,center):

  '''無錫婦科檢查醫院 http://www.87554006.com/

  進行結果展示

  :param data:原始數據

  :param y_predict:預測標籤

  :param center:最終的聚類中心

  :return:

  '''

  plt.figure()

  #獲取原始數據的行數

  index_num = data.shape[0]

  #

  colors = ['r','g','b','y']

  for i in range(index_num):

  plt.scatter(data[i,0],data[i,1],c=colors[int(y_predict[i])])

  #散點圖的繪製,一個一個繪製

  #聚類中心的位置

  #b的話是描點劃線,bx的話是畫點但是不描線

  plt.plot(center[:,0],center[:,1],'bx',marker='x',markersize=12)

  plt.show()

  調用函數來進行聚類

  data = built_data()

  #導包實現

  k=3

  km = KMeans(n_clusters=k)

  #訓練數據

  km.fit(data)

  #進行預測 ,y_predict預測標籤

  y_predict = km.predict(data)

  #獲取聚類中心

  center = km.cluster_centers_

  print('預測值:\n',y_predict)

  print('聚類中心:\n',center)

  show_res_km(data.values,y_predict,center)

  得出結果


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章