官網:https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html#pandas.read_csv
一、pd.read_csv()
作用:將csv文件讀入並轉化爲數據框形式。
filepath_or_buffer: Union[str, pathlib.Path, IO[~AnyStr]], sep=',', delimiter=None,
header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None,
mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None,
false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None,
na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True,
parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None,
dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer',
thousands=None, decimal: str = '.', lineterminator=None, quotechar='"', quoting=0,
doublequote=True, escapechar=None, comment=None, encoding=None, dialect=None,
error_bad_lines=True, warn_bad_lines=True, delim_whitespace=False, low_memory=True,
memory_map=False, float_precision=None
參數雖多,但常用的參數屈指可數,下面簡單介紹一下常用參數:
1.filepath_or_buffer:str
表示文件所在處的路徑。(唯一一個必須有的參數,其它按要求選用)
任何有效的字符串路徑都是可以接受的。該字符串可以是URL。有效的URL方案包括http,ftp,s3和file。
2.sep:str
指定分隔符。默認爲“,”。
3.delimiter:str
定界符,備選分隔符(如果指定該參數,則sep參數失效)。默認爲None。
4.header:int,list
指定哪一行作爲表頭。默認爲0(即第一行作爲表頭),如果沒有表頭的話,設置header=None。
5.names:array
指定列的名稱。一般我們沒有表頭,即header=None時,這個用來添加列名就很有用滴!
6.index_col:int,str,int / str的序列,
指定哪一列數據作爲行索引,可以是一列,也可以多列。多列的話,會看到一個分層索引。默認爲False。
7.prefix:str
給列名添加前綴。如prefix="x",會出來"x1"、"x2"。
8.nrows:int
要讀取的文件行數。對於讀取大文件很有用。
9.skiprows:list-like, int
文件開頭要跳過的行號(索引爲0)或要跳過的行數(整數)。
10.encoding:str
讀/寫時用於UTF的編碼(例如'utf-8')。亂碼時需考慮。
二.pd.to_csv()
作用:將數據框寫入本地電腦,保存。
以下代碼瞭解當前工作路徑。
import os
father_path = os.getcwd()
father_path
基本格式:
import pandas as pd
pd.to_csv(path_or_buf,sep,na_rep,columns,header,index)
常用參數介紹:
1.path_or_buf:str
放文件名、相對路徑、文件流等。
2.sep:str
分隔符。與read_csv()中sep參數意思一樣。
3.na_rep:str
將NaN轉換爲特定值。
4.columns:list
指定哪些列寫進去。
5.header
默認header=0,如果沒有表頭,設置header=None。
6.index
關於索引的,默認True,寫入索引。