pandas數據分析讀書筆記(二)

pd.isnull(df),返回空的值爲True,非空值爲False

最常用的數據加載函數有:Read_csv()與read_table()

Pd.read_table(sep=),如果是csv文件,也可以用read_table函數來讀取,只是需要設定分隔符sep

Pd.read_csv(header = None, name)

header參數,當文件沒有標題行時,可以設置這個參數爲None

Names參數,讀取文件時,可以指定列名

Index_col參數,可以指定某列爲DataFrame的索引,也可以傳入一個列表,則會做成一個層次化索引,也可以是編號

skiprows跳過文件的某行,比如skiprows[0, 2, 3],則跳過文件的第一行、第三行和第四行

Parse_dates,將數據解析爲日期,默認爲False,如果爲True,則嘗試解析所有列

Nrows,需要讀取的行數

skip_footer,需要忽略的行數,從文件末尾處算起

Chunksize,逐塊讀取文件,該參數用於指定塊大小,返回的是一個迭代器,每次都根據chunksize讀取一小塊

 

Df.to_csv(),這個函數用於將數據寫到一個csv文件中。

參數如下:

Na_rep,將空字符串表示爲別的標記值

Index,是否寫入索引

Header,是否寫入列名

Columns,傳入列名列表,可以指定列輸出的順序

 

Json庫

Json.loads(),將json字符串轉化爲python形式

Json.dumps(),將python對象轉換爲JSON形式

 

Pd.read_json(),將json文件讀取爲DataFrame

Df.to_json(),將數據輸出到json

 

Pd.read_excel(sheet_name = ),讀取excel文件,sheet_name參數是讀取哪個sheet頁

Frame.to_excel(sheet_name),將數據存儲到excel文件中

 

Df.isnull(),返回一個只有True和False的df,如果df的值爲空,則對應的爲True

Df.notnull(),與isnull的反義詞

Df.dropna(axis = 0, how = ),刪除缺失值,如果是DdataFrame對象,那會刪除含有空的行或者烈,默認是丟棄含有缺失值的行,當傳入axis = 1時,刪除有空的列,how=’all’只刪除全部爲空的那些行,

Df.fillna(value = , method=, inplace = , axis = 0, inpalce = False, limit),填充缺失數據,可以通過method進行填充,可以用ffil和bfill,ffil是向前填充,bfill是向後填充,還可以傳入一個字典,實現根據不同的列填充不同的值,還可以傳入inplace參數爲True,即對現有的對象進行本地修改,還可以傳入平均數等等

Df.duplicated(),返回一個布爾型的Series,表示各行是否有重複行

Df.drop_duplicates(),刪除重複的行,也根據某列獲多列刪除重複項,傳入列名即可

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章