pd.isnull(df),返回空的值爲True,非空值爲False
最常用的數據加載函數有:Read_csv()與read_table()
Pd.read_table(sep=),如果是csv文件,也可以用read_table函數來讀取,只是需要設定分隔符sep
Pd.read_csv(header = None, name)
header參數,當文件沒有標題行時,可以設置這個參數爲None
Names參數,讀取文件時,可以指定列名
Index_col參數,可以指定某列爲DataFrame的索引,也可以傳入一個列表,則會做成一個層次化索引,也可以是編號
skiprows跳過文件的某行,比如skiprows[0, 2, 3],則跳過文件的第一行、第三行和第四行
Parse_dates,將數據解析爲日期,默認爲False,如果爲True,則嘗試解析所有列
Nrows,需要讀取的行數
skip_footer,需要忽略的行數,從文件末尾處算起
Chunksize,逐塊讀取文件,該參數用於指定塊大小,返回的是一個迭代器,每次都根據chunksize讀取一小塊
Df.to_csv(),這個函數用於將數據寫到一個csv文件中。
參數如下:
Na_rep,將空字符串表示爲別的標記值
Index,是否寫入索引
Header,是否寫入列名
Columns,傳入列名列表,可以指定列輸出的順序
Json庫
Json.loads(),將json字符串轉化爲python形式
Json.dumps(),將python對象轉換爲JSON形式
Pd.read_json(),將json文件讀取爲DataFrame
Df.to_json(),將數據輸出到json
Pd.read_excel(sheet_name = ),讀取excel文件,sheet_name參數是讀取哪個sheet頁
Frame.to_excel(sheet_name),將數據存儲到excel文件中
Df.isnull(),返回一個只有True和False的df,如果df的值爲空,則對應的爲True
Df.notnull(),與isnull的反義詞
Df.dropna(axis = 0, how = ),刪除缺失值,如果是DdataFrame對象,那會刪除含有空的行或者烈,默認是丟棄含有缺失值的行,當傳入axis = 1時,刪除有空的列,how=’all’只刪除全部爲空的那些行,
Df.fillna(value = , method=, inplace = , axis = 0, inpalce = False, limit),填充缺失數據,可以通過method進行填充,可以用ffil和bfill,ffil是向前填充,bfill是向後填充,還可以傳入一個字典,實現根據不同的列填充不同的值,還可以傳入inplace參數爲True,即對現有的對象進行本地修改,還可以傳入平均數等等
Df.duplicated(),返回一個布爾型的Series,表示各行是否有重複行
Df.drop_duplicates(),刪除重複的行,也根據某列獲多列刪除重複項,傳入列名即可