jupter notbook ; matplotlib
什麼是數據挖掘
- 對大規模數據進行自動或者半自動化的分析,得到之前不知道的有價值的潛在信息
- 舉個例子:從共享單車的客戶使用信息得到國慶節前後,單車使用量的趨勢變化
爲什麼要學
- 公司可以根據現有數據或者購買的數據獲得潛在的價值信息,指導之後的經營方向,制定更加穩健的經營計劃
- 一直數據挖掘都是存在的,爲什麼近兩年才火?數據挖掘的需要大量的數據以及較強的機器性能,而這兩個條件都是最近兩年才爆發式發展的。
- 社會對這方面人才足需求旺盛,薪資也普遍較高
數據挖掘流程
- 問題定義
- 數據採集
- 數據探索及預處理
- 數據挖掘
- 模式的評估
- 數據的可視化
- 模型發佈
數據挖掘基礎學習目標
- 定位:用數據爲企業創造價值
- 1.建立對數據挖掘的認知
- 2.掌握Python流行數據處理類庫
CONDA
- 用來進行數據挖掘的一個軟件,數據挖掘的環境
工具
- matplotlib:2D畫圖庫
- NumPy:數值計算庫
- pandas:數據分析庫
- jupyter notebook:一款編程/文檔/筆記/展示軟件
matplotlib
什麼是matplotlib
- 用來開發2D圖表(也可以開發3D圖表)的庫
- 特點:
- 使用簡單
- 以漸進,交互的方式實現可視化
爲什麼要學?
- 可視化在整個數據挖掘的過程中是關鍵的輔助工具,可以清晰的理解數據,從而調整我們的分析方法
matplotlib架構
- Backend層
- 系統層
- matplotlib API 位於該層
- 其中:
- FigureCanvas對象實現了繪圖區域這個概念
- Renderer對象在FigureCanvas上繪圖
- Artist層
- 繪製的圖形中能看到的元素都屬於Ariitst層
- Figure:對應整個畫板
- Axes:Figure可以有多個圖表,每一個圖表就是一個Axes
- Axis:一個座標橫軸/縱軸
- Scripting層
- 主要用於數據分析和可視化
- pyploy:
- 1.操作或者改動Figure對象,例如,創建Figure對象
- 2.大部分工作是處理樣本文件的圖形與座標的生成
使用pyplot畫折線圖
- 簡單操作
# 導入模塊
import matplotlib.pyplot as plt
# 準備數據
x = [1,2,3,4,5,6,7]
y = [17,17,18,11,11,13,13]
# 繪製折線圖
plt.plot(x,y)
# 展示折線圖
plt.show()
其他操作
- 設置圖片大小
plt.figure(figsize=(20,8), dpi=100)
- 保存到本地
plt.savefig('first_image.png')
- 調整x/y軸刻度的間距
x1 = x[::5]
plt.xticks(x1)
x軸/y軸/標題的描述信息
# x軸描述信息 plt.xlabel('時間') # y軸描述信息 plt.ylabel('溫度') # 表格描述信息 plt.tilte('溫度隨着時間的變化')
…
折線圖的應用場景
- 折線圖表現的是變化和趨勢,凡是有此傾向的問題,都可以用折線圖表達
- 共享單車在國慶節前後每日使用量的變化
- 股票k線
- 溫度在一年中的變化
總結
- 折線圖的繪製:plt.plot
- 設置圖片的大小:plt.figure
- 圖表的保存:plt.savefig
- 設置x/y軸刻度:plt.xticks,plt.yticks
- 設置標,x/y軸的描述:plt.title,plt.xlabel,plt.ylabel
- 分圖:plt.subplts