1.使用NumPy让Python的科学计算更加高效
- 简介:NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。
- 区别:为什么不是直接使用list,而是更加高效的NumPy
- 原因:NumPy重新定义了数据结构,使用的是C语言编写,运行速度非常快,主要是用于数组计算。
- 规则:避免使用隐式拷贝,而是采用就地操作的方式:如使用x = 2,不用y = x2
官网地址:https://numpy.org/devdocs/user/quickstart.html
中文学习网站:https://www.runoob.com/numpy/numpy-tutorial.html
NumPy包含的两个重要的对象:
- ndarray:一个强大的N维数组对象 ndarray
- ufunc:全称为universal function
ndarray(N-dimensional array object ) 对象
- ndarray:多维数组
- 一维数组的秩=1,二维数组的秩=2,三维数组的秩=3
- 线性数组称为一个轴(axes),秩就是描述轴的数量
创建数组:
import numpy as np
a = np.array([1, 2, 3])
b = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
b[1,1]=10 # 直接赋值进行修改
print(a.shape) # 获取数组的大小
print(b.shape)
print(a.dtype) # 获取元素的属性
print(b)
# 运行结果
'''
(3,)
(3, 3)
int32
[[ 1 2 3]
[ 4 10 6]
[ 7 8 9]]
'''
结构数组
- 目的:统计一个班级里面的学生的姓名、年龄、以及语文、英语、数学成绩:
- NumPy的实现方式:
import numpy as np
# 使用dtype定义结构类型
persontype = np.dtype({
# 很明显names和formats是关键字,不能出错!
'names':['name', 'age', 'chinese', 'math', 'english'],
'formats':['S32','i', 'i', 'i', 'f']})
# 定义数组的时候用array中指定了的结构数组类型dtype=persontype
peoples = np.array([("ZhangFei",32,75,100, 90),("GuanYu",24,85,96,88.5),
("ZhaoYun",28,85,92,96.5),("HuangZhong",29,65,85,100)],
dtype=persontype)
# 分别获取所有的年龄,语文,数学,英语的数据
ages = peoples[:]['age']
chineses = peoples[:]['chinese']
maths = peoples[:]['math']
englishs = peoples[:]['english']
# 求得各个属性的平均值mean
print(np.mean(ages))
print(np.mean(chineses))
print(np.mean(maths))
print(np.mean(englishs))
'''
# 运行结果
28.25
77.5
93.25
93.75
'''
ufunc运算
- universal function的缩写
- 计算速度快
连续数组的创建
- 可以使用arange或者linspace函数创建
import numpy as np
x1 = np.arange(1,11,2)
x2 = np.linspace(1,9,5)
- 区别:都会产生列表[1,3,5,7,9],但是使用的方法是不同的,前者使用2作为步长,不包括尾部元素;后者使用等差数列,限定个数,包括尾部元素
进行算数运算
- 使用NumPy进行加减乘除和求n次方和求余,例如:
import numpy as np
x1 = np.arange(1,11,2)
x2 = np.linspace(1,9,5)
# 产生数组[1,3,5,7,9]
print(np.add(x1, x2))
print(np.subtract(x1, x2))
print(np.multiply(x1, x2))
print(np.divide(x1, x2))
print(np.power(x1, x2))
# 求余也可以使用np.mod(x1,x2)
print(np.remainder(x1, x2))
# 运算的结果为:
'''
[ 2. 6. 10. 14. 18.]
[0. 0. 0. 0. 0.]
[ 1. 9. 25. 49. 81.]
[1. 1. 1. 1. 1.]
[1.00000000e+00 2.70000000e+01 3.12500000e+03 8.23543000e+05
3.87420489e+08]
[0. 0. 0. 0. 0.]
'''
统计函数
- 统计学里面的值进行计算:最大最小值、平均值、是否符合正态分布、方差、标准差
计数组/ 矩阵中的最大函数amax(),最小函数amin()
- 示例代码:
import numpy as np
a = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(np.amin(a)) # 求得(计数组)矩阵的最小元素
print(np.amin(a,0)) # axis=0 就是按照行获取
print(np.amin(a,1)) # axis=1 就是按照列获取
print(np.amax(a)) #获取最大值
print(np.amax(a,0)) # 按照行获取最大
print(np.amax(a,1)) # 按照列获取最大
'''
# 运行结果:
1
[1 2 3]
[1 4 7]
9
[7 8 9]
[3 6 9]
'''
统计最大值和最小值之差
import numpy as np
a = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(np.ptp(a)) # 数值中最大最小值之差
print(np.ptp(a,0)) # 每行中最大最小值之差6
print(np.ptp(a,1)) # 每列中最大最小值之差2
'''
# 运行结果
8
[6 6 6]
[2 2 2]
'''
统计数组的百分位数percentile()
引入:
学习Python的NumPy科学计算类库的时候遇到计算百分位数,使用NumPy实现的代码很简单,直接调用就行,如下所示:
import numpy as np
a = np.array([[1,2,3], [4,5,6], [7,8,9]])
# 50是P(0~100),表示第p百分位数
print(np.percentile(a, 50))
# 结果:5.0
print(np.percentile(a, 50, axis=0))
# 跨行(axis=0)结果:[4. 5. 6.]
print(np.percentile(a, 50, axis=1))
# 跨列(axis=1)结果:[2. 5. 8.]
print(np.percentile(a,30))
# 结果:3.4
疑问
最后的计算30的百分位数3.4是怎样得到的呢?就想了解一下计算原理,百度一下后,总结下个人理解
原理
计算公式:①(n−1)∗p=i+j;②result = (1−j)∗arr[i]+j∗arr[i+1]
n:数组的个数:1, 2, 3, 4, 5, 6, 7, 8, 9 ,总共9个,n=9;
p: 需要计算的百分位数,这里是30%;
i:是计算后的数值的整数部分,这里计算左边(9-1)∗ 0.3 = 2.4, i = 2;
j:是计算后的小数部分,j = 0.4;
所以最后的结果为:
result = (1−j)∗arr[i]+j∗arr[i+1] = (1 - 0.4)× arr[2] + 0.4 x arr[2+1]
= 0.6 x 3 + 0.4 x 4
= 3.4
统计数组中位数median(),平均数mean()
import numpy as np
a = np.array([[1,2,3], [4,5,6], [7,8,9]])
# 求中位数
print(np.median(a))
print(np.median(a, axis=0)) # 行
print(np.median(a, axis=1)) # 列
# 求平均数
print(np.mean(a))
print(np.mean(a, axis=0))
print(np.mean(a, axis=1))
'''
# 运行结果
5.0
[4. 5. 6.]
[2. 5. 8.]
5.0
[4. 5. 6.]
[2. 5. 8.]
'''
统计数组中的加权平均值average()
import numpy as np
a = np.array([1,2,3,4])
wts = np.array([1,2,3,4])
print(np.average(a))
print(np.average(a,weights=wts))
'''
# 运行结果
a = np.array([1,2,3,4])
wts = np.array([1,2,3,4])
print np.average(a)
print np.average(a,weights=wts)
'''
# 计算原理:np.average(a,weights=wts)=(1*1+2*2+3*3+4*4)/(1+2+3+4)=3.0
统计数组中的标准差std()、方差()
- 反映数据的分散程度
import numpy as np
a = np.array([1,2,3,4])
# 标准差
print(np.std(a))
# 平方差
print(np.var(a))
'''
运行结果:
1.118033988749895
1.25
'''
NumPy排序
- 使用sort()函数可以轻松搞定:
- sort(a, axis=-1, kind=‘quicksort’, order=None)
- kind的值可以是quicksort、mergesort、heapsort等等
import numpy as np
a = np.array([[4,3,2],[2,4,1]])
print(np.sort(a))
print(np.sort(a, axis=None)) # 不按照轴来排序,全部一起排
print(np.sort(a, axis=0)) # 按照行排列,小的在上,大的在下
print(np.sort(a, axis=1)) # 和axis为空的情况一直,但是实质是不同的
'''
运行结果:
[[2 3 4]
[1 2 4]]
[1 2 2 3 4 4]
[[2 3 1]
[4 4 2]]
[[2 3 4]
[1 2 4]]
'''
总结
NumPy的使用比直接使用Python的List更加方便灵活,也更加快速。
NumPy
排序:1、快速排序
2、合并排序
3、堆排序
定义数组:
1、创建数组
2、结构数组
高效使用NumPy:
1、为什么使用NumPy
2、本地操作和隐式拷贝
运算:
1、算术运算
2、统计运算