數據分析之Pandas-03多行索引和數據處理

01-多層行索引

進行切片,有些漢字出問題,有些沒問題

02-Pandas數據處理

刪除重複元素

df = DataFrame({'color':['white','white','red','red','white'],
               'value':[2,1,3,3,2]})
display(df,df.duplicated(),df.drop_duplicates())

映射

  • replace()函數:替換元素,
  • map()函數:新建一列!!!map中返回的數據是一個具體值,不能迭代
  • rename()函數:替換索引

異常值檢測和過濾

  1. 使用describe()函數查看每一列的描述性統計量。
  2. 使用std()函數可以求得DataFrame對象每一列的標準差。
  3. 根據每一列的標準差,對DataFrame元素進行過濾。
  4. 藉助any()函數,對每一列應用篩選條件

排序

使用.take()函數排序
可以藉助np.random.permutation()函數隨機排序

隨機抽樣

當DataFrame規模足夠大時,直接使用np.random.randint()函數,就配合take()函數實現隨機抽樣
練習:
創建DataFrame:張三李四王老五的期中考試成績,對着三名同學隨機排序

初級數據聚合

數據分類處理的核心: groupby()函數

高級數據聚合

可以使用pd.merge()函數包聚合操作的計算結果添加到df的每一行。

可以使用transform和apply實現相同功能。

發佈了48 篇原創文章 · 獲贊 4 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章