使用Numpy快速處理數據

1.使用NumPy讓Python的科學計算更加高效

  • 簡介:NumPy(Numerical Python) 是 Python 語言的一個擴展程序庫,支持大量的維度數組與矩陣運算,此外也針對數組運算提供大量的數學函數庫。
  • 區別:爲什麼不是直接使用list,而是更加高效的NumPy
  • 原因:NumPy重新定義了數據結構,使用的是C語言編寫,運行速度非常快,主要是用於數組計算。
  • 規則:避免使用隱式拷貝,而是採用就地操作的方式:如使用x = 2,不用y = x2

官網地址:https://numpy.org/devdocs/user/quickstart.html

中文學習網站:https://www.runoob.com/numpy/numpy-tutorial.html

NumPy包含的兩個重要的對象:

  • ndarray:一個強大的N維數組對象 ndarray
  • ufunc:全稱爲universal function

ndarray(N-dimensional array object ) 對象

  • ndarray:多維數組
  • 一維數組的秩=1,二維數組的秩=2,三維數組的秩=3
  • 線性數組稱爲一個軸(axes),秩就是描述軸的數量

創建數組:

import numpy as np
a = np.array([1, 2, 3])
b = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
b[1,1]=10 # 直接賦值進行修改
print(a.shape)  # 獲取數組的大小
print(b.shape) 
print(a.dtype) # 獲取元素的屬性
print(b)

# 運行結果
'''
(3,)
(3, 3)
int32
[[ 1  2  3]
 [ 4 10  6]
 [ 7  8  9]]
'''

結構數組

  • 目的:統計一個班級裏面的學生的姓名、年齡、以及語文、英語、數學成績:
  • NumPy的實現方式:
import numpy as np
# 使用dtype定義結構類型
persontype = np.dtype({
    # 很明顯names和formats是關鍵字,不能出錯!
    'names':['name', 'age', 'chinese', 'math', 'english'],
    'formats':['S32','i', 'i', 'i', 'f']})
# 定義數組的時候用array中指定了的結構數組類型dtype=persontype
peoples = np.array([("ZhangFei",32,75,100, 90),("GuanYu",24,85,96,88.5),
       ("ZhaoYun",28,85,92,96.5),("HuangZhong",29,65,85,100)],
    dtype=persontype)
# 分別獲取所有的年齡,語文,數學,英語的數據
ages = peoples[:]['age']
chineses = peoples[:]['chinese']
maths = peoples[:]['math']
englishs = peoples[:]['english']
# 求得各個屬性的平均值mean
print(np.mean(ages))
print(np.mean(chineses))
print(np.mean(maths))
print(np.mean(englishs))
'''
# 運行結果
28.25
77.5
93.25
93.75
'''

ufunc運算

  • universal function的縮寫
  • 計算速度快

連續數組的創建

  • 可以使用arange或者linspace函數創建
import numpy as np
x1 = np.arange(1,11,2)
x2 = np.linspace(1,9,5)
  • 區別:都會產生列表[1,3,5,7,9],但是使用的方法是不同的,前者使用2作爲步長,不包括尾部元素;後者使用等差數列,限定個數,包括尾部元素

進行算數運算

  • 使用NumPy進行加減乘除和求n次方和求餘,例如:
import numpy as np
x1 = np.arange(1,11,2)
x2 = np.linspace(1,9,5)
# 產生數組[1,3,5,7,9]
print(np.add(x1, x2))
print(np.subtract(x1, x2))
print(np.multiply(x1, x2))
print(np.divide(x1, x2))
print(np.power(x1, x2))
# 求餘也可以使用np.mod(x1,x2)
print(np.remainder(x1, x2))

# 運算的結果爲:
'''
[ 2.  6. 10. 14. 18.]
[0. 0. 0. 0. 0.]
[ 1.  9. 25. 49. 81.]
[1. 1. 1. 1. 1.]
[1.00000000e+00 2.70000000e+01 3.12500000e+03 8.23543000e+05
 3.87420489e+08]
[0. 0. 0. 0. 0.]
'''

統計函數

  • 統計學裏面的值進行計算:最大最小值、平均值、是否符合正態分佈、方差、標準差

計數組/ 矩陣中的最大函數amax(),最小函數amin()

  • 示例代碼:
import numpy as np
a = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(np.amin(a)) # 求得(計數組)矩陣的最小元素
print(np.amin(a,0)) # axis=0 就是按照行獲取
print(np.amin(a,1)) # axis=1 就是按照列獲取 
print(np.amax(a)) #獲取最大值
print(np.amax(a,0)) # 按照行獲取最大
print(np.amax(a,1)) # 按照列獲取最大

'''
# 運行結果:
1
[1 2 3]
[1 4 7]
9
[7 8 9]
[3 6 9]
'''

統計最大值和最小值之差

import numpy as np
a = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(np.ptp(a))  # 數值中最大最小值之差
print(np.ptp(a,0)) # 每行中最大最小值之差6
print(np.ptp(a,1)) # 每列中最大最小值之差2
'''
# 運行結果
8
[6 6 6]
[2 2 2]
'''

統計數組的百分位數percentile()

引入:

學習Python的NumPy科學計算類庫的時候遇到計算百分位數,使用NumPy實現的代碼很簡單,直接調用就行,如下所示:

import numpy as np
a = np.array([[1,2,3], [4,5,6], [7,8,9]])
# 50是P(0~100),表示第p百分位數
print(np.percentile(a, 50))
# 結果:5.0
print(np.percentile(a, 50, axis=0))
# 跨行(axis=0)結果:[4. 5. 6.]
print(np.percentile(a, 50, axis=1))
# 跨列(axis=1)結果:[2. 5. 8.]
print(np.percentile(a,30))
# 結果:3.4
疑問

最後的計算30的百分位數3.4是怎樣得到的呢?就想了解一下計算原理,百度一下後,總結下個人理解

原理

計算公式:①(n−1)∗p=i+j;②result = (1−j)∗arr[i]+j∗arr[i+1]
n:數組的個數:1, 2, 3, 4, 5, 6, 7, 8, 9 ,總共9個,n=9;
p: 需要計算的百分位數,這裏是30%;
i:是計算後的數值的整數部分,這裏計算左邊(9-1)∗ 0.3 = 2.4, i = 2;
j:是計算後的小數部分,j = 0.4;
所以最後的結果爲:
result = (1−j)∗arr[i]+j∗arr[i+1] = (1 - 0.4)× arr[2] + 0.4 x arr[2+1]
= 0.6 x 3 + 0.4 x 4
= 3.4

統計數組中位數median(),平均數mean()

import numpy as np
a = np.array([[1,2,3], [4,5,6], [7,8,9]])
# 求中位數
print(np.median(a))
print(np.median(a, axis=0)) # 行
print(np.median(a, axis=1)) # 列
# 求平均數
print(np.mean(a))
print(np.mean(a, axis=0))
print(np.mean(a, axis=1))

'''
# 運行結果
5.0
[4. 5. 6.]
[2. 5. 8.]
5.0
[4. 5. 6.]
[2. 5. 8.]
'''

統計數組中的加權平均值average()

import numpy as np
a = np.array([1,2,3,4])
wts = np.array([1,2,3,4])
print(np.average(a))
print(np.average(a,weights=wts))
'''
# 運行結果
a = np.array([1,2,3,4])
wts = np.array([1,2,3,4])
print np.average(a)
print np.average(a,weights=wts)
'''
# 計算原理:np.average(a,weights=wts)=(1*1+2*2+3*3+4*4)/(1+2+3+4)=3.0

統計數組中的標準差std()、方差()

  • 反映數據的分散程度
import numpy as np
a = np.array([1,2,3,4])
# 標準差
print(np.std(a))
# 平方差
print(np.var(a))

'''
運行結果:
1.118033988749895
1.25
'''

NumPy排序

  • 使用sort()函數可以輕鬆搞定:
  • sort(a, axis=-1, kind=‘quicksort’, order=None)
  • kind的值可以是quicksort、mergesort、heapsort等等
import numpy as np
a = np.array([[4,3,2],[2,4,1]])
print(np.sort(a))
print(np.sort(a, axis=None)) # 不按照軸來排序,全部一起排
print(np.sort(a, axis=0)) # 按照行排列,小的在上,大的在下
print(np.sort(a, axis=1)) # 和axis爲空的情況一直,但是實質是不同的

'''
運行結果:
[[2 3 4]
 [1 2 4]]
[1 2 2 3 4 4]
[[2 3 1]
 [4 4 2]]
[[2 3 4]
 [1 2 4]]
'''

總結

NumPy的使用比直接使用Python的List更加方便靈活,也更加快速。

NumPy
排序:1、快速排序
2、合併排序
3、堆排序
定義數組:
1、創建數組
2、結構數組
高效使用NumPy:
1、爲什麼使用NumPy
2、本地操作和隱式拷貝
運算:
1、算術運算
2、統計運算

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章