使用Numpy快速處理數據

1.使用NumPy讓Python的科學計算更加高效

簡介：NumPy(Numerical Python) 是 Python 語言的一個擴展程序庫，支持大量的維度數組與矩陣運算，此外也針對數組運算提供大量的數學函數庫。
區別：爲什麼不是直接使用list，而是更加高效的NumPy
原因：NumPy重新定義了數據結構，使用的是C語言編寫，運行速度非常快，主要是用於數組計算。
規則：避免使用隱式拷貝，而是採用就地操作的方式：如使用x = 2,不用y = x2

官網地址：https://numpy.org/devdocs/user/quickstart.html

中文學習網站：https://www.runoob.com/numpy/numpy-tutorial.html

NumPy包含的兩個重要的對象：

ndarray：一個強大的N維數組對象 ndarray
ufunc：全稱爲universal function

ndarray（N-dimensional array object ）對象

ndarray:多維數組
一維數組的秩=1，二維數組的秩=2，三維數組的秩=3
線性數組稱爲一個軸（axes），秩就是描述軸的數量

創建數組：

import numpy as np
a = np.array([1, 2, 3])
b = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
b[1,1]=10 # 直接賦值進行修改
print(a.shape)  # 獲取數組的大小
print(b.shape) 
print(a.dtype) # 獲取元素的屬性
print(b)

# 運行結果
'''
(3,)
(3, 3)
int32
[[ 1  2  3]
 [ 4 10  6]
 [ 7  8  9]]
'''

結構數組

目的：統計一個班級裏面的學生的姓名、年齡、以及語文、英語、數學成績：
NumPy的實現方式：

import numpy as np
# 使用dtype定義結構類型
persontype = np.dtype({
    # 很明顯names和formats是關鍵字，不能出錯！
    'names':['name', 'age', 'chinese', 'math', 'english'],
    'formats':['S32','i', 'i', 'i', 'f']})
# 定義數組的時候用array中指定了的結構數組類型dtype=persontype
peoples = np.array([("ZhangFei",32,75,100, 90),("GuanYu",24,85,96,88.5),
       ("ZhaoYun",28,85,92,96.5),("HuangZhong",29,65,85,100)],
    dtype=persontype)
# 分別獲取所有的年齡，語文，數學，英語的數據
ages = peoples[:]['age']
chineses = peoples[:]['chinese']
maths = peoples[:]['math']
englishs = peoples[:]['english']
# 求得各個屬性的平均值mean
print(np.mean(ages))
print(np.mean(chineses))
print(np.mean(maths))
print(np.mean(englishs))
'''
# 運行結果
28.25
77.5
93.25
93.75
'''

ufunc運算

universal function的縮寫
計算速度快

連續數組的創建

可以使用arange或者linspace函數創建

import numpy as np
x1 = np.arange(1,11,2)
x2 = np.linspace(1,9,5)

區別：都會產生列表[1,3,5,7,9],但是使用的方法是不同的，前者使用2作爲步長，不包括尾部元素；後者使用等差數列，限定個數，包括尾部元素

進行算數運算

使用NumPy進行加減乘除和求n次方和求餘，例如：

import numpy as np
x1 = np.arange(1,11,2)
x2 = np.linspace(1,9,5)
# 產生數組[1,3,5,7,9]
print(np.add(x1, x2))
print(np.subtract(x1, x2))
print(np.multiply(x1, x2))
print(np.divide(x1, x2))
print(np.power(x1, x2))
# 求餘也可以使用np.mod(x1,x2)
print(np.remainder(x1, x2))

# 運算的結果爲：
'''
[ 2.  6. 10. 14. 18.]
[0. 0. 0. 0. 0.]
[ 1.  9. 25. 49. 81.]
[1. 1. 1. 1. 1.]
[1.00000000e+00 2.70000000e+01 3.12500000e+03 8.23543000e+05
 3.87420489e+08]
[0. 0. 0. 0. 0.]
'''

統計函數

統計學裏面的值進行計算：最大最小值、平均值、是否符合正態分佈、方差、標準差

計數組/ 矩陣中的最大函數amax(),最小函數amin()

示例代碼：

import numpy as np
a = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(np.amin(a)) # 求得（計數組）矩陣的最小元素
print(np.amin(a,0)) # axis=0 就是按照行獲取
print(np.amin(a,1)) # axis=1 就是按照列獲取 
print(np.amax(a)) #獲取最大值
print(np.amax(a,0)) # 按照行獲取最大
print(np.amax(a,1)) # 按照列獲取最大

'''
# 運行結果：
1
[1 2 3]
[1 4 7]
9
[7 8 9]
[3 6 9]
'''

統計最大值和最小值之差

import numpy as np
a = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(np.ptp(a))  # 數值中最大最小值之差
print(np.ptp(a,0)) # 每行中最大最小值之差6
print(np.ptp(a,1)) # 每列中最大最小值之差2
'''
# 運行結果
8
[6 6 6]
[2 2 2]
'''

統計數組的百分位數percentile()

引入：

學習Python的NumPy科學計算類庫的時候遇到計算百分位數，使用NumPy實現的代碼很簡單，直接調用就行，如下所示：

import numpy as np
a = np.array([[1,2,3], [4,5,6], [7,8,9]])
# 50是P（0～100），表示第p百分位數
print(np.percentile(a, 50))
# 結果：5.0
print(np.percentile(a, 50, axis=0))
# 跨行（axis=0）結果：[4. 5. 6.]
print(np.percentile(a, 50, axis=1))
# 跨列（axis=1）結果：[2. 5. 8.]
print(np.percentile(a,30))
# 結果：3.4

疑問

最後的計算30的百分位數3.4是怎樣得到的呢？就想了解一下計算原理，百度一下後，總結下個人理解

原理

計算公式：①(n−1)∗p=i+j；②result = (1−j)∗arr[i]+j∗arr[i+1]
n：數組的個數：1, 2, 3, 4, 5, 6, 7, 8, 9 ，總共9個，n=9;
p: 需要計算的百分位數，這裏是30%；
i：是計算後的數值的整數部分，這裏計算左邊（9-1）∗ 0.3 = 2.4, i = 2;
j：是計算後的小數部分，j = 0.4；
所以最後的結果爲：
result = (1−j)∗arr[i]+j∗arr[i+1] = （1 - 0.4）× arr[2] + 0.4 x arr[2+1]
= 0.6 x 3 + 0.4 x 4
= 3.4

統計數組中位數median(),平均數mean()

import numpy as np
a = np.array([[1,2,3], [4,5,6], [7,8,9]])
# 求中位數
print(np.median(a))
print(np.median(a, axis=0)) # 行
print(np.median(a, axis=1)) # 列
# 求平均數
print(np.mean(a))
print(np.mean(a, axis=0))
print(np.mean(a, axis=1))

'''
# 運行結果
5.0
[4. 5. 6.]
[2. 5. 8.]
5.0
[4. 5. 6.]
[2. 5. 8.]
'''

統計數組中的加權平均值average()

import numpy as np
a = np.array([1,2,3,4])
wts = np.array([1,2,3,4])
print(np.average(a))
print(np.average(a,weights=wts))
'''
# 運行結果
a = np.array([1,2,3,4])
wts = np.array([1,2,3,4])
print np.average(a)
print np.average(a,weights=wts)
'''
# 計算原理：np.average(a,weights=wts)=(1*1+2*2+3*3+4*4)/(1+2+3+4)=3.0

統計數組中的標準差std()、方差()

反映數據的分散程度

import numpy as np
a = np.array([1,2,3,4])
# 標準差
print(np.std(a))
# 平方差
print(np.var(a))

'''
運行結果：
1.118033988749895
1.25
'''

NumPy排序

使用sort()函數可以輕鬆搞定：
sort(a, axis=-1, kind=‘quicksort’, order=None)
kind的值可以是quicksort、mergesort、heapsort等等

import numpy as np
a = np.array([[4,3,2],[2,4,1]])
print(np.sort(a))
print(np.sort(a, axis=None)) # 不按照軸來排序，全部一起排
print(np.sort(a, axis=0)) # 按照行排列，小的在上，大的在下
print(np.sort(a, axis=1)) # 和axis爲空的情況一直，但是實質是不同的

'''
運行結果：
[[2 3 4]
 [1 2 4]]
[1 2 2 3 4 4]
[[2 3 1]
 [4 4 2]]
[[2 3 4]
 [1 2 4]]
'''

總結

NumPy的使用比直接使用Python的List更加方便靈活，也更加快速。

NumPy
排序：1、快速排序
2、合併排序
3、堆排序
定義數組：
1、創建數組
2、結構數組
高效使用NumPy：
1、爲什麼使用NumPy
2、本地操作和隱式拷貝
運算：
1、算術運算
2、統計運算

使用Numpy快速處理數據

1.使用NumPy讓Python的科學計算更加高效

NumPy包含的兩個重要的對象：

ndarray（N-dimensional array object ）對象

創建數組：

結構數組

ufunc運算

連續數組的創建

進行算數運算

統計函數

計數組/ 矩陣中的最大函數amax(),最小函數amin()

統計最大值和最小值之差

統計數組的百分位數percentile()

引入：

疑問

原理

統計數組中位數median(),平均數mean()

統計數組中的加權平均值average()

統計數組中的標準差std()、方差()

NumPy排序

總結

Python爬蟲：BeautifulSoup4初探

使用Numpy統計全班的同學的成績

Python的科學計算庫Pandas（潘大師）的使用

Numpy在數據分析領域中的核心應用

Python的數據分析可視化十種技能總結

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

使用Numpy快速處理數據

1.使用NumPy讓Python的科學計算更加高效

NumPy包含的兩個重要的對象：

ndarray（N-dimensional array object ） 對象

創建數組：

結構數組

ufunc運算

連續數組的創建

進行算數運算

統計函數

計數組/ 矩陣中的最大函數amax(),最小函數amin()

統計最大值和最小值之差

統計數組的百分位數percentile()

引入：

疑問

原理

統計數組中位數median(),平均數mean()

統計數組中的加權平均值average()

統計數組中的標準差std()、方差()

NumPy排序

總結

ndarray（N-dimensional array object ）對象