数据自习室第二周·Python数据分析基础0722-0728

文章目录

  1. Numpy(Numerical Python)
  2. Pandas
  3. 补充

Numpy(Numerical Python)

是一个功能强大的Python库,主要用于对多维数组执行计算,其提供了大量的库函数,可应用于矩阵的计算,图像的处理、各类数学任务计算(例如,微积分)等,是一种基于Python的MATLAB的快速替代。下面通过代码块展示Numpy部分可实现的功能:

# 使用NumPy创建数组array
import numpy as np
data = np.array([1,2,3,4,5,6,7,8,9,10]) #生成一维数组
data_d = np.array([[1,2,3],[3,4,5]]) #生成二维数组
d1 = np.zeros(10,dtype=int) #生成长度为10,数值全部为0的数组
d2 = np.ones(10,dtype=int) #生成长度为10,数值全部为1的数组
d3 = np.arange(0,10,1) #生成[0,10],间隔为1的数据序列
d4 = np.eye(3) #生成3*3单位矩阵
d5 = np.random.randint(0,10,10) #随机生成长度为10,数值于[0,10]之间的数组

# 使用Numpy计算描述性统计指标(部分,详情可参照本文概要图)
from numpy import mean, median
from scipy.stats import mode
data_mean = mean(data) 
data_median = median(data)
data_mode = mode(data)

Pandas

是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。下面通过代码块展示Numpy部分可实现的功能:

# 使用Pandas创建Series and DataFream
import pandas as pd
data = pd.Series(100,index = range(4)) #Series是一个自带索引index的数组
d1 = pd.Series(np.random.rand(5), index = list("abcde")) #自定义索引
# pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
d2 = pd.DataFrame(np.random.randn(8,5)) #创建8*5随机数据矩阵
d3 = pd.read_csv() #读取csv文件 
d4 = pd.read_excel() #读取excel文件

# 使用pandas计算描述性统计指标(部分,详情可参照本文概要图)
data_var = data.var()
data_std = data.std()
data_iqr = data.quantile(0.75)-data.quantile(0.25)

补充

# 使用Python连接数据库的代码实现
import pymysql #在 Python3.x 版本中用于连接 MySQL 服务器的一个库
conn=pymysql.connect(host='你的数据库地址',user='用户名',password='密码',db='数据库名',charset='utf8') #连接当地数据库
sql_query1=''' select * from table1 where ...''' #sql提数代码
data=pd.read_sql(sql_query1,con=conn) #读取sql提取数据
 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章