數據自習室第二週·Python數據分析基礎0722-0728

文章目錄

  1. Numpy(Numerical Python)
  2. Pandas
  3. 補充

Numpy(Numerical Python)

是一個功能強大的Python庫,主要用於對多維數組執行計算,其提供了大量的庫函數,可應用於矩陣的計算,圖像的處理、各類數學任務計算(例如,微積分)等,是一種基於Python的MATLAB的快速替代。下面通過代碼塊展示Numpy部分可實現的功能:

# 使用NumPy創建數組array
import numpy as np
data = np.array([1,2,3,4,5,6,7,8,9,10]) #生成一維數組
data_d = np.array([[1,2,3],[3,4,5]]) #生成二維數組
d1 = np.zeros(10,dtype=int) #生成長度爲10,數值全部爲0的數組
d2 = np.ones(10,dtype=int) #生成長度爲10,數值全部爲1的數組
d3 = np.arange(0,10,1) #生成[0,10],間隔爲1的數據序列
d4 = np.eye(3) #生成3*3單位矩陣
d5 = np.random.randint(0,10,10) #隨機生成長度爲10,數值於[0,10]之間的數組

# 使用Numpy計算描述性統計指標(部分,詳情可參照本文概要圖)
from numpy import mean, median
from scipy.stats import mode
data_mean = mean(data) 
data_median = median(data)
data_mode = mode(data)

Pandas

是一個強大的分析結構化數據的工具集;它的使用基礎是Numpy(提供高性能的矩陣運算);用於數據挖掘和數據分析,同時也提供數據清洗功能。下面通過代碼塊展示Numpy部分可實現的功能:

# 使用Pandas創建Series and DataFream
import pandas as pd
data = pd.Series(100,index = range(4)) #Series是一個自帶索引index的數組
d1 = pd.Series(np.random.rand(5), index = list("abcde")) #自定義索引
# pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
d2 = pd.DataFrame(np.random.randn(8,5)) #創建8*5隨機數據矩陣
d3 = pd.read_csv() #讀取csv文件 
d4 = pd.read_excel() #讀取excel文件

# 使用pandas計算描述性統計指標(部分,詳情可參照本文概要圖)
data_var = data.var()
data_std = data.std()
data_iqr = data.quantile(0.75)-data.quantile(0.25)

補充

# 使用Python連接數據庫的代碼實現
import pymysql #在 Python3.x 版本中用於連接 MySQL 服務器的一個庫
conn=pymysql.connect(host='你的數據庫地址',user='用戶名',password='密碼',db='數據庫名',charset='utf8') #連接當地數據庫
sql_query1=''' select * from table1 where ...''' #sql提數代碼
data=pd.read_sql(sql_query1,con=conn) #讀取sql提取數據
 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章