超全的pandas數據分析常用函數總結：上篇

↑ 關注 + 星標 ~ 有趣的不像個技術號

每晚九點，我們準時相約

大家好，我是雅痞紳士JM

基礎知識在數據分析中就像是九陽神功，熟練的掌握，加以運用，就可以練就深厚的內力，成爲絕頂高手自然不在話下！

爲了更好地學習數據分析，我對於數據分析中pandas這一模塊裏面常用的函數進行了總結。整篇總結，在詳盡且通俗易懂的基礎上，我力求使其有很強的條理性和邏輯性，所以製作了思維導圖，對於每一個值得深究的函數用法，我也會附上官方鏈接，方便大家繼續深入學習。

文章中的所有代碼都會有講解和註釋，絕大部分也都會配有運行結果，這樣的話，整篇總結篇幅量自然不小，所以我分成了上下兩篇，這裏是上篇，下篇在次條。

1. 導入模塊

import pandas as pd      # 這裏用到的是pandas和numpy兩個模塊
import numpy as np

2. 創建數據集並讀取

2.1 創建數據集

我構造了一個超市購物的數據集，該數據集屬性包括：訂單ID號（id）、訂單日期（date）、消費金額（money）、訂單商品（product）、商品類別（department）、商品產地（origin）。

# 列表和字典均可傳入DataFrame，我這裏用的是字典傳入：
data=pd.DataFrame({
    "id":np.arange(101,111),                                # np.arange會自動輸出範圍內的數據，這裏會輸出101~110的id號。
    "date":pd.date_range(start="20200310",periods=10),      # 輸出日期數據，設置週期爲10，注意這裏的週期數應該與數據條數相等。
    "money":[5,4,65,-10,15,20,35,16,6,20],                  # 設置一個-10的坑，下面會填（好慘，自己給自己挖坑，幸虧不準備跳~）
    "product":['蘇打水','可樂','牛肉乾','老乾媽','菠蘿','冰激凌','洗面奶','洋蔥','牙膏','薯片'],
    "department":['飲料','飲料','零食','調味品','水果',np.nan,'日用品','蔬菜','日用品','零食'],                # 再設置一個空值的坑
    "origin":['China',' China','America','China','Thailand','China','america','China','China','Japan']     # 再再設置一個america的坑
})
data              # 輸出查看數據集

輸出結果：

2.2 數據寫入和讀取

data.to_csv("shopping.csv",index=False)       # index=False表示不加索引，否則會多一行索引

data=pd.read_csv("shopping.csv")

3. 數據查看

3.1 數據集基礎信息查詢

data.shape            # 行數列數
data.dtypes           # 所有列的數據類型
data['id'].dtype      # 某一列的數據類型
data.ndim             # 數據維度
data.index            # 行索引
data.columns          # 列索引
data.values           # 對象值

3.2 數據集整體情況查詢

data.head()    # 顯示頭部幾行（默認5行）
data.tail()    # 顯示末尾幾行（默認5行）
data.info()    # 數據集相關信息概覽：索引情況、列數據類型、非空值、內存使用情況
data.describe()    # 快速綜合統計結果

4. 數據清洗

4.1 查看異常值

當然，現在這個數據集很小，可以直觀地發現異常值，但是在數據集很大的時候，我用下面這種方式查看數據集中是否存在異常值，如果有其他更好的方法，歡迎傳授給我。

for i in data:
    print(i+": "+str(data[i].unique()))      # 查看某一列的唯一值

輸出結果：我們發現，該數據集中money存在一個負值，department存在一個空值以及origin存在大小寫問題。

4.2 空值處理

4.2.1 空值檢測

data.isnull()# 查看整個數據集的空值data['department'].isnull()# 查看某一列的空值

data.isnull()                # 查看整個數據集的空值
data['department'].isnull()  # 查看某一列的空值

輸出結果：

將空值判斷進行彙總，更加直觀，ascending默認爲True，升序。

data.isnull().sum().sort_values(ascending=False)

輸出結果：

更多關於pandas.DataFrame.sort_values的用法，戳下面官方鏈接：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html

4.2.2 空值處理

pandas.DataFrame.fillna（value = None，method = None，inplace = False）

value：用於填充的值，可以是具體值、字典和數組，不能是列表；
method：填充方法，有 ffill 和 bfill 等；
inplace默認無False，如果爲True，則將修改此對象上的所有其他視圖。

更多關於pandas.DataFrame.fillna的用法，戳下面官方鏈接：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html

data['department'].fillna(method="ffill")    # 填充上一個值，即填充“水果”

輸出結果：

data['department'].fillna(method="bfill")    # 填充下一個值，即填充“日用品”

data['department'].fillna(value="冷凍食品",inplace=True)    # 替換爲具體值，並且在原對象值上進行修改

輸出結果：

4.3 空格處理

只針對object類型數據

for i in data:                                    # 遍歷數據集中的每一列
    if pd.api.types.is_object_dtype(data[i]):     # 如果是object類型的數據，則執行下方代碼
        data[i]=data[i].str.strip()               # 去除空格
data['origin'].unique()                           # 驗證一下

輸出結果：array([‘China’, ‘America’, ‘Thailand’, ‘america’, ‘Japan’], dtype=object)

4.4 大小寫轉換

data['origin'].str.title()         # 將首字母大寫
data['origin'].str.capitalize()    # 將首字母大寫
data['origin'].str.upper()         # 全部大寫
data['origin'].str.lower()         # 全部小寫

4.5 數據替換

data['origin'].replace("america","America",inplace=True)    # 將第一個值替換爲第二個值，inplace默認爲False
data['origin']

輸出結果：

data['money'].replace(-10,np.nan,inplace=True)                    # 將負值替換爲空值
data['money'].replace(np.nan,data['money'].mean(),inplace=True)   # 將空值替換爲均值
data['money']

輸出結果：

4.6 數據刪除

方法一

data1 = data[data.origin != 'American'] #去掉origin爲American的行
data1
data2=data[(data != 'Japan').all(1)]    #去掉所有包含Japan的行    不等於Japan的行爲真，則返回
data2

方法二

data['origin'].drop_duplicates()      # 默認刪除後面出現的重複值，即保留第一次出現的重複值

輸出結果：

data['origin'].drop_duplicates(keep='last')   # 刪除前面出現的重複值，即保留最後一次出現的重複值

輸出結果：

更多關於pandas.DataFrame.drop_duplicates的用法，戳下面官方鏈接：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html#pandas.DataFrame.drop_duplicates

4.7 數據格式轉換

data['id'].astype('str')    # 將id列的類型轉換爲字符串類型。

常見的數據類型對照

4.8 更改列名稱

data.rename(columns={'id':'ID', 'origin':'產地'})     # 將id列改爲ID，將origin改爲產地。

輸出結果：

思維導圖

完整思維導圖電子版（PDF）

待明日晚九點推文，和（下篇）一起整理給大家哈

參考資料：

pandas官網
pandas用法總結
Pandas 文本數據方法

如果本文對你有幫助

歡迎掃描二維碼關注作者的今日頭條

（或在今日頭條搜索“雅痞紳士JM”）

近期文章，點擊圖片即可查看

後臺回覆關鍵詞「進羣」，即刻加入讀者交流羣~

五

未完待續，下篇見明日推文，還有完整版思維導圖哈

朱小五

超全的pandas數據分析常用函數總結：上篇

1. 導入模塊

2. 創建數據集並讀取

3. 數據查看

4. 數據清洗

杭州的 IT 崩盤了麼？

開源高性能結構化日誌模塊NanoLog

Python 潮流週刊#55：分享 9 個高質量的技術類信息源！

Azure Virtual Network (22) 多訂閱使用Azure DNS解析問題 Windows Azure Platform 系列文章目錄

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

237篇歷史文章合集

我用python掐指一算，2020高考分數和錄取情況可能是這樣

一款高顏值的詞雲包讓我拍案叫絕

Python 爬取 201865 條《隱祕的角落》彈幕數據，發現看劇不如爬山？

Python爬取 201865 條《隱祕的角落》彈幕，發現看劇不如爬山？

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結