Pandas中describe()函數的使用介紹

                                                                  Pandas中describe()函數的使用介紹

一、describe()函數介紹

       pandas 是基於numpy構建的含有更高級數據結構和工具的數據分析包,提供了高效地操作大型數據集所需的工具。pandas有兩個核心數據結構 Series和DataFrame,分別對應了一維的序列和二維的表結構。而describe()函數就是返回這兩個核心數據結構的統計變量。其目的在於觀察這一系列數據的範圍、大小、波動趨勢等等,爲後面的模型選擇打下基礎。

       pandas.DataFrame.describe 的官方文檔

DataFrame.describe(percentiles=None, include=None, exclude=None)
# return: Series or DataFrame.  Summary statistics of the Series or Dataframe provided.

二、使用案例 

2.1 統計一個 series 信息

     列值爲數字的:

import pandas as pd
s = pd.Series([1, 2, 3, 4])
print(s.describe())

    列值爲非數字的:

a = pd.Series(['a', 'd', 'r', 't'])
print(a.describe())

  注意上面兩幅圖,字母列和數值列的統計結果是不一樣的。

2.2 統計一個dataframe的信息

import pandas as pd
c = pd.DataFrame({'categorical': pd.Categorical(['d', 'e', 'f']), 'numeric': [1, 2, 3], 'object': ['a', 'b', 'c']})
print(c)
desc = c.describe(include='all')  # include='all',代表對所有列進行統計,如果不加這個參數,則只對數值列進行統計
print(desc)

缺失值由NaN補上,如果爲NaN,說明此列的信息不可以用這個統計變量進行統計的。注意,數值列和字母列是不一樣的。

統計值變量說明:

   count:數量統計,此列共有多少有效值
   unipue:不同的值有多少個
   std:標準差
   min:最小值
   25%:四分之一分位數
   50%:二分之一分位數
   75%:四分之三分位數
   max:最大值
   mean:均值

發佈了62 篇原創文章 · 獲贊 171 · 訪問量 23萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章