01-多層行索引
進行切片,有些漢字出問題,有些沒問題
02-Pandas數據處理
刪除重複元素
df = DataFrame({'color':['white','white','red','red','white'],
'value':[2,1,3,3,2]})
display(df,df.duplicated(),df.drop_duplicates())
映射
- replace()函數:替換元素,
- map()函數:新建一列!!!map中返回的數據是一個具體值,不能迭代
- rename()函數:替換索引
異常值檢測和過濾
- 使用describe()函數查看每一列的描述性統計量。
- 使用std()函數可以求得DataFrame對象每一列的標準差。
- 根據每一列的標準差,對DataFrame元素進行過濾。
- 藉助any()函數,對每一列應用篩選條件
排序
使用.take()函數排序
可以藉助np.random.permutation()函數隨機排序
隨機抽樣
當DataFrame規模足夠大時,直接使用np.random.randint()函數,就配合take()函數實現隨機抽樣
練習:
創建DataFrame:張三李四王老五的期中考試成績,對着三名同學隨機排序
初級數據聚合
數據分類處理的核心: groupby()函數
高級數據聚合
可以使用pd.merge()函數包聚合操作的計算結果添加到df的每一行。
可以使用transform和apply實現相同功能。