Python 數據處理實踐(1)--文件讀取

python常用文件讀取方式

使用python進行文件讀取有非常多的方式。一般初學者會使用python原生的讀取方式:

  • 獲得文件對象
 file_object = open('thefile.txt')
  • 讀每行
list_of_all_the_lines = file_object.readlines()

原生讀取的方式有很多種,具體可以參考

http://www.cnblogs.com/6tian/p/5886284.html

不過,對於很多數據處理問題,使用原生的讀取方式讀取文件需要程序編寫者做許多後續處理工作。特別是針對大規模的帶有一定格式的數據,很多文件讀取後的首要處理工作是將文件內容轉換爲表格。因此,使用python的數據處理包pandas就非常必要了。

pandas的文件讀取方式

pandas讀取一般txt格式或者沒有寫明格式的文件可以使用

pandas.read_table(filepath_or_buffer, sep , names=[], index_col)

其中:

  • filepath_or_buffer是文件的路徑名或者網上文件的URL
  • sep代表的是文件每行所採用間隔符號(用來分出列)
  • names是一個列表,其中存放的是每一列的稱
  • index_col 用0,1,2… 標識,表示使用哪一列作爲表格的引

對於csv格式的數據,pandas提供了 pandas.read_csv()函數進行讀取,大致讀取方式和read_table()類。
對於excel格式的數據,pandas也提供了pandas.read_excel()函數,可見pandas數據讀取功能的強大。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章