Pandas模塊的知識——數據預處理

一、dataframe結構

  1. 讀取CSV文件
    pandas.read_csv(‘C:/Users/86183/Desktop/123.csv’) 爲Dataframe類型
  2. 文件類型查看

|print(type(food))| |
字符型得值叫Object

-3
food.head() 如果括號裏默認值,則只顯示前四行,如果括號值爲8,則顯示前八行
food.tail(4) 從後往前得四個值
列名,指標得查看,即爲第一行。food.columns
4、取數據
food.loc[0] 取第一個數據
5、dataframe類型
object 字符類型
int 整型
float 浮點型
datetime 時間類型
bool 布爾類型
6、通過列名稱來定位
xuhao = food[“xuhao”]
得到序號得列中得第幾個和第幾個對應得數字
定位兩個列:colu =[“xuhao,men”]
huo =food.colu.tolist()
7、數據計算
div_1000 = food[“mouyilie”]/100
對應位置得計算*/
8、最大值最小值均值
某一列得最大值 food[“列名”].max
歸一化操作: normalized_lie =food[“lie”]/food[“lie”].max()
9、排序得操作
new =food.sort_values(“lie”,inplace=True) 從小到大排列
Inplace來確定是在原來基礎上排序,還是在新增得圖表中排序
new= food.sort_values(“lie”,inplace=True,ascending =False) 從大到小排列。默認是升序排列
(2)不僅要把所對應得列進行排序,還希望把索引順序號排列,
new_reindex=nei.reset_index(drop=True) ,爲true表示爲原來的索引值不要了
10、age_is_null = pandas.isull(age) 判斷年齡列是否有缺失值,有缺失爲true。無確實爲false。
len()計算長度
在計算平均值時,如果有缺失值Nan,那麼需要去掉缺失值。方法如下
good=food[“列名”][age_is_full==False]
平均值food[“列名”].mean()
11、pivot_table 統計
food.pivot_table(index=“爲基準得列表名”,values=“統計值和基準量之間得關係”,aggfunc=np.mean)
計算平均值,如果後面不寫,默認均值
12、丟掉缺失值
food.dropna(axis=1)丟掉缺失值
food.dropna(axis=,subset=[“列1”,“列2”])
13、定位
food.loc[8,“age”] 對food得表格第8行得對應得age列得數
14、apply函數。
把定義的函數應用到表格中。
二、series 某一行某一列叫series

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章