Pandas中describe()函數的使用介紹

Pandas中describe()函數的使用介紹

一、describe()函數介紹

pandas 是基於numpy構建的含有更高級數據結構和工具的數據分析包，提供了高效地操作大型數據集所需的工具。pandas有兩個核心數據結構 Series和DataFrame，分別對應了一維的序列和二維的表結構。而describe()函數就是返回這兩個核心數據結構的統計變量。其目的在於觀察這一系列數據的範圍、大小、波動趨勢等等，爲後面的模型選擇打下基礎。

pandas.DataFrame.describe 的官方文檔。

DataFrame.describe(percentiles=None, include=None, exclude=None)
# return: Series or DataFrame.  Summary statistics of the Series or Dataframe provided.

二、使用案例

2.1 統計一個 series 信息

列值爲數字的：

import pandas as pd
s = pd.Series([1, 2, 3, 4])
print(s.describe())

列值爲非數字的：

a = pd.Series(['a', 'd', 'r', 't'])
print(a.describe())

注意上面兩幅圖，字母列和數值列的統計結果是不一樣的。

2.2 統計一個dataframe的信息

import pandas as pd
c = pd.DataFrame({'categorical': pd.Categorical(['d', 'e', 'f']), 'numeric': [1, 2, 3], 'object': ['a', 'b', 'c']})
print(c)
desc = c.describe(include='all')  # include='all',代表對所有列進行統計，如果不加這個參數，則只對數值列進行統計
print(desc)

缺失值由NaN補上，如果爲NaN，說明此列的信息不可以用這個統計變量進行統計的。注意，數值列和字母列是不一樣的。

統計值變量說明：

count：數量統計，此列共有多少有效值
unipue：不同的值有多少個
std：標準差
min：最小值
25%：四分之一分位數
50%：二分之一分位數
75%：四分之三分位數
max：最大值
mean：均值

程序員在旅途

發佈了62 篇原創文章 · 獲贊 171 · 訪問量 23萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Pandas中describe()函數的使用介紹

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

lightdb數據庫超時相關控制參數

lightdb秒級增加列和刪除列（not null帶默認值）

Java ThreadPoolShutdown

使用遞歸函數求解字符串的逆置問題

隊列的基本概念介紹以及典型應用示例

以數制轉換問題講解棧數據結構的基本概念及其在計算機中的應用

英文字母比較大小

使用單鏈表數據結構存儲結構化的學生信息

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結