《Python數據分析與挖掘實戰》代碼糾錯4-3

最近在學習張良均老師的《Python數據分析與挖掘實戰》，發現部分代碼存在錯誤，特分享調試好的代碼，供學習參考。

代碼清單4-3 數據離散化

書本代碼：

#-*- coding: utf-8 -*-
#數據規範化
import pandas as pd

datafile = '../data/discretization_data.xls' #參數初始化
data = pd.read_excel(datafile) #讀取數據
data = data[u'肝氣鬱結證型係數'].copy()
k = 4

d1 = pd.cut(data, k, labels = range(k)) #等寬離散化，各個類比依次命名爲0,1,2,3

#等頻率離散化
w = [1.0*i/k for i in range(k+1)]
w = data.describe(percentiles = w)[4:4+k+1] #使用describe函數自動計算分位數
w[0] = w[0]*(1-1e-10)
d2 = pd.cut(data, w, labels = range(k))

from sklearn.cluster import KMeans #引入KMeans
kmodel = KMeans(n_clusters = k, n_jobs = 4) #建立模型，n_jobs是並行數，一般等於CPU數較好
kmodel.fit(data.reshape((len(data), 1))) #訓練模型
c = pd.DataFrame(kmodel.cluster_centers_).sort(0) #輸出聚類中心，並且排序（默認是隨機序的）
w = pd.rolling_mean(c, 2).iloc[1:] #相鄰兩項求中點，作爲邊界點
w = [0] + list(w[0]) + [data.max()] #把首末邊界點加上
d3 = pd.cut(data, w, labels = range(k))

def cluster_plot(d, k): #自定義作圖函數來顯示聚類結果
  import matplotlib.pyplot as plt
  plt.rcParams['font.sans-serif'] = ['SimHei'] #用來正常顯示中文標籤
  plt.rcParams['axes.unicode_minus'] = False #用來正常顯示負號
  
  plt.figure(figsize = (8, 3))
  for j in range(0, k):
    plt.plot(data[d==j], [j for i in d[d==j]], 'o')
  
  plt.ylim(-0.5, k-0.5)
  return plt

cluster_plot(d1, k).show()

cluster_plot(d2, k).show()
cluster_plot(d3, k).show()

錯誤提示：

此代碼共有三處錯誤：1.'Series'對象沒有屬性'reshape' ；2.'DataFrame'對象沒有屬性'sort'；3.模塊'panda'沒有屬性' rolling_mean '。

知道了錯誤原因之後就好解決了：

1.series數據不存在reshape，需改爲data.values.reshape；

2.dataframe排序，不能直接data.sort[],需改爲data.sort_values()；

3.應該使用pandas.DataFrame.rolling然後應用mean()，應改爲w = c.rolling(2).mean().iloc[1:]。

修改後代碼：

#-*- coding: utf-8 -*-
#數據規範化
import pandas as pd

datafile = '../data/discretization_data.xls' #參數初始化
data = pd.read_excel(datafile) #讀取數據
data = data[u'肝氣鬱結證型係數'].copy()
k = 4

d1 = pd.cut(data, k, labels = range(k)) #等寬離散化，各個類比依次命名爲0,1,2,3

#等頻率離散化
w = [1.0*i/k for i in range(k+1)]
w = data.describe(percentiles = w)[4:4+k+1] #使用describe函數自動計算分位數
w[0] = w[0]*(1-1e-10)
d2 = pd.cut(data, w, labels = range(k))

from sklearn.cluster import KMeans #引入KMeans
kmodel = KMeans(n_clusters = k, n_jobs = 4) #建立模型，n_jobs是並行數，一般等於CPU數較好
kmodel.fit(data.values.reshape((len(data), 1))) #訓練模型
c = pd.DataFrame(kmodel.cluster_centers_).sort_values(0) #輸出聚類中心，並且排序（默認是隨機序的）
w = c.rolling(2).mean().iloc[1:] #相鄰兩項求中點，作爲邊界點
w = [0] + list(w[0]) + [data.max()] #把首末邊界點加上
d3 = pd.cut(data, w, labels = range(k))

def cluster_plot(d, k): #自定義作圖函數來顯示聚類結果
  import matplotlib.pyplot as plt
  plt.rcParams['font.sans-serif'] = ['SimHei'] #用來正常顯示中文標籤
  plt.rcParams['axes.unicode_minus'] = False #用來正常顯示負號
  
  plt.figure(figsize = (8, 3))
  for j in range(0, k):
    plt.plot(data[d==j], [j for i in d[d==j]], 'o')
  
  plt.ylim(-0.5, k-0.5)
  return plt

cluster_plot(d1, k).show()

cluster_plot(d2, k).show()
cluster_plot(d3, k).show()

最後，繪出的結果圖爲：

《Python數據分析與挖掘實戰》代碼糾錯4-3

快速排序(Quick Sort)-Java實現

堆排序(Heap Sort)-Java常見經典算法詳解

歸併排序(Selection Sort)-Java常見經典算法詳解

《Python數據分析與挖掘實戰》代碼糾錯3-3

Java常見經典算法詳解-插入排序(Insertion Sort)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結