python常用文件讀取方式
使用python進行文件讀取有非常多的方式。一般初學者會使用python原生的讀取方式:
- 獲得文件對象
file_object = open('thefile.txt')
- 讀每行
list_of_all_the_lines = file_object.readlines()
原生讀取的方式有很多種,具體可以參考
不過,對於很多數據處理問題,使用原生的讀取方式讀取文件需要程序編寫者做許多後續處理工作。特別是針對大規模的帶有一定格式的數據,很多文件讀取後的首要處理工作是將文件內容轉換爲表格。因此,使用python的數據處理包pandas就非常必要了。
pandas的文件讀取方式
pandas讀取一般txt格式或者沒有寫明格式的文件可以使用
pandas.read_table(filepath_or_buffer, sep , names=[], index_col)
其中:
- filepath_or_buffer是文件的路徑名或者網上文件的URL
- sep代表的是文件每行所採用間隔符號(用來分出列)
- names是一個列表,其中存放的是每一列的稱
- index_col 用0,1,2… 標識,表示使用哪一列作爲表格的引
對於csv格式的數據,pandas提供了 pandas.read_csv()函數進行讀取,大致讀取方式和read_table()類。
對於excel格式的數據,pandas也提供了pandas.read_excel()函數,可見pandas數據讀取功能的強大。