數據分析之Pandas-03多行索引和數據處理

原創

Python小学生

2020-02-21 14:34

01-多層行索引

進行切片，有些漢字出問題，有些沒問題

02-Pandas數據處理

刪除重複元素

df = DataFrame({'color':['white','white','red','red','white'],
               'value':[2,1,3,3,2]})
display(df,df.duplicated(),df.drop_duplicates())

映射

replace()函數：替換元素，
map()函數：新建一列!!!map中返回的數據是一個具體值，不能迭代
rename()函數：替換索引

異常值檢測和過濾

使用describe()函數查看每一列的描述性統計量。
使用std()函數可以求得DataFrame對象每一列的標準差。
根據每一列的標準差，對DataFrame元素進行過濾。
藉助any()函數，對每一列應用篩選條件

排序

使用.take()函數排序
可以藉助np.random.permutation()函數隨機排序

隨機抽樣

當DataFrame規模足夠大時，直接使用np.random.randint()函數，就配合take()函數實現隨機抽樣
練習：
創建DataFrame：張三李四王老五的期中考試成績，對着三名同學隨機排序

初級數據聚合

數據分類處理的核心： groupby()函數

高級數據聚合

可以使用pd.merge()函數包聚合操作的計算結果添加到df的每一行。

可以使用transform和apply實現相同功能。

Python小學生

發佈了48 篇原創文章 · 獲贊 4 · 訪問量 3萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python運算符和表達式

本文轉載自http://www.cnblogs.com/yueya/p/5811937.html 算術運算符：比較運算符：賦值運算符：位運算符：邏輯運算符：身份運算符：對比：isinst

liangyingyi1006

2020-07-04 10:41:01

【Python數據分析】1st-數據探索與數據預處理

《Python數據分析與挖掘實戰》讀書筆記之數據探索與數據預處理文章目錄@[toc] ##一、數據探索 Python中用於數據探索的庫主要是Pandas（數據分析）和Matplotlib（數據可視化） ###數據分析內容數據質

2020-07-02 21:24:03

[數據分析基礎] 2. Matplotlib庫

[數據分析基礎] 2. Matplotlib庫文章目錄[數據分析基礎] 2. Matplotlib庫一、Matplotlib庫入門1. pyplot的繪圖區域2. pyplot的plot()函數format_string**kw

2020-07-02 19:25:02

利用Python進行數據分析(三)：繪圖與可視化

本文爲《利用Python進行數據分析》的部分讀書筆記目錄matplotlib入門圖片與子圖顏色，標記和線類型刻度，標籤和圖例將圖片保存到文件顯示圖像註釋與子圖加工matplotlib設置 matplotlib入門本文爲入門內

2020-07-02 18:52:51

利用Python進行數據分析(一)：IPython及Jupyter notebook

本文爲《利用Python進行數據分析》的部分讀書筆記目錄IPython與Jupyter notebook簡介IPython基礎使用IPython命令行運行Jupyter notebook配置文件Jupyter Notebook

2020-07-02 18:52:51

利用Python進行數據分析(二)：Numpy

本文爲《利用Python進行數據分析》的部分讀書筆記目錄Numpy ndarray: 多維數組對象ndarray屬性NumPy 數據類型生成ndarrayNumpy數組算術基礎索引與切片布爾索引神奇索引數組轉置與轉軸通用函數：快

2020-07-02 18:52:51

數據分析之Pandas-01Series和DataFrame

01-什麼是Pandas Python Data Analysis Library 或 pandas 是基於NumPy 的一種工具，該工具是爲了解決數據分析任務而創建的。 pandas 納入了大量庫和一些標準的數據模型，提供了高

Python小学生

2020-07-02 10:12:42

Pandas使用（二）

文章目錄DataFrame介紹DataFrame創建DataFrame基礎操作DataFrame查詢DateFrame索引Pandas字符串的常用方法使用loc及iloc選擇數據DataFrame算術DataFrame排序 Dat

2020-06-30 11:35:03

Numpy常用的數據清洗函數

排序函數 np.sort 將元素進行小到大的順序排序 axis -1 默認情況下爲-1，當爲-1的時候是進行小到大排序 0 當爲0的時候，是進行列的方式進行操作(從小到大) 1 當爲1的時候，是進行行的方式進行操作(從小到大的順序

2020-06-30 11:35:02

我的2019年度代碼報告

不知從何時起，年度報告總能在舊年將近、新年伊始的時候掀起朋友圈的熱潮。近日，網易雲音樂、知乎等各大流行app也如期放出了其用戶2019年的年度報告，我突發奇想，爲何不爲自己生成一個GitHub的年度代碼報告？綠油油的Git

2020-06-29 16:25:22

IPython Notebook 簡介

IPython 是python語言的一個shell，其中i 是interaction 的縮寫，表示交互。 IPython有以下幾個特性：交互shell功能；基於瀏覽器即可完成代碼編寫、編譯、調試功能；支持交互式可視化圖形；支持並行計算。

2020-06-28 16:14:07

利用Python進行數據分析(十二) - pandas高級應用

注：本文根據《利用Python進行數據分析》總結而來，內容版權歸原作者所有。

方糖冰红茶

2020-06-27 08:59:02

利用Python進行數據分析(十三) - Python建模庫介紹

注：本文根據《利用Python進行數據分析》總結而來，內容版權歸原作者所有。 Patsy創建模型描述這一節雲裏霧裏，看不明白。

方糖冰红茶

2020-06-27 08:58:51

利用Python進行數據分析(十) - 數據聚合與分組運算

注：本文根據《利用Python進行數據分析》總結而來，內容版權歸原作者所有。

方糖冰红茶

2020-06-27 08:58:51

利用Python進行數據分析(六) - 數據加載、存儲和文件格式

注：本文根據《利用Python進行數據分析》總結而來，內容版權歸原作者所有。

方糖冰红茶

2020-06-27 08:58:50

24小時熱門文章

最新文章

最新評論文章