Pandas數據分析基礎：排序、基本統計、累計統計、相關分析

原創

a1183976042

2020-07-03 19:01

一、數據的排序

（一）基本概念：

一組數據表達一個或多個含義，通過摘要（有損的地提取數據特徵的過程），得到：基本統計（含有排序）、分佈/累計統計、數據特徵（相關性、週期性）、數據挖掘（形成知識）

（二）排序

（1）操作索引的排序

.sort_index()：在指定軸上根據索引進行排序，默認零軸（縱向）升序，，參數axis指定軸，ascending指定升序或降序。

import pandas as pd
import numpy as np
b = pd.DataFrame(np.arange(20).reshape(4,5), index=['b', 'a', 'c','d'])
print(b)print(b.sort_index())    #默認
print(b.sort_index(axis=1,ascending=False)  #一軸（橫向排序），降序

（2）操作數據的排序

.sort_values()：在指定軸上根據數值進行排序，默認升序。
Series.sort_values()：參數axis指定軸，ascending指定升序或降序。
DataFrame.sort_values()：參數by指定axis上某個索引或索引列表，axis指定軸，ascending指定升序或降序。
*含有NaN的，無論升序降序，永遠排在排序的末尾

import pandas as pd
import numpy as np
b = pd.DataFrame(np.arange(20).reshape(4,5), index=['c', 'a', 'd','b'])
print(b.sort_values(2, ascending=False))
print(b.sort_values('a', axis=1,ascending=False))
a = pd.DataFrame(np.arange(12).reshape(3,4), index=['a', 'd','b'])
print((a+b).sort_values(2, ascending=False))

二、基本統計分析

基本統計分析函數

適用於Series和DataFrame：sum，count，mean，median，var，std，min，max，describe

適用於Series：argmin，argmax，idxmin，idxmax。前兩者是自動索引，後兩者是自定義索引

*可以對describe對象使用索引獲取我們想要的數據特徵

三、數據的累計統計分析

對數據的前1-n個數據進行一些累計運算，減少for循環的使用，使數據運算更加靈活

適用於Series和DataFrame：cumsum，cumprod，cummax，cumin

適用於Series和DataFrame的滾動計算函數（以此計算相鄰w個元素的xx）：.rolling(w).sum/mean/var/std/min/max

四、相關分析

相關性：正相關、負相關、不相關
如何度量相關性

協方差（>0:正相關，<0:負相關，=0:無關）
pearson相關係數

相關性分析函數：

適用於Series和DataFrame：cov協方差矩陣，corr相關係數矩陣

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Pandas數據分析基礎：排序、基本統計、累計統計、相關分析

一、數據的排序

（一）基本概念：

（二）排序

（1）操作索引的排序

二、基本統計分析

三、數據的累計統計分析

四、相關分析

Pandas數據分析基礎：排序、基本統計、累計統計、相關分析

pandas學習基本概念：Series與DataFrame

數據可視化基礎（二）——Pyplot基礎圖表函數（餅圖、直方圖、極座標圖、散點圖）

圖像的數組表示、變換，圖片的手繪效果

數據可視化基礎（一）——Pyplot圖表控制基礎

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結