python處理大文件的內存問題

原創

aaabbbbttt

2019-02-22 23:53

摘要：

同學們時常會遇到要處理大文件的情況，現在是大數據時代，有些文件動輒幾十個G，我們在處理這樣文件的時候一不小心就把內存撐爆了，或者程序被強制kill掉了。

原因是你一次性把文件的所有內容都讀取到內存裏面了。python裏面有方法可以一段一段的讀文件。

正文：

沒錯，就是用iterator，又叫迭代器，實例代碼如下。

cat test.py

f = open('data', 'r')

for line in f:

line = line.split(";;")

lines.append(line)

if len(lines) >= 10000:

# consume the lines which have been read

print lines

del lines[:]

if lines:

# consume the lines which have been read

print lines

cat data

73231701-201610;;shop_id::::73231701;;shop_name::::邂逅魅影;;platform_name::::xxxx;;shop_type::::個人賣家;;shop_loc::::xxx;;gold_seller::::否;;market_name::::taobao;;description::::NULL;;service::::NULL;;logistics::::NULL;;shop_owner::::洋洋103105;;create_time::::2012-08-15;;credit::::愛心4;;shop_age::::4;;co_name::::NULL;;shop_link::::https://shop73231701.example.com

73295319-201610;;shop_id::::73295319;;shop_name::::唯美爲你最美;;platform_name::::xxxx;;shop_type::::個人賣家;;shop_loc::::xxx;;gold_seller::::否;;market_name::::taobao;;description::::NULL;;service::::NULL;;logistics::::NULL;;shop_owner::::chenyan121166563;;create_time::::2012-08-20;;credit::::鑽石3;;shop_age::::4;;co_name::::NULL;;shop_link::::

https://shop73295319.example.com

上面的文件實際會很長，我這裏只是寫了兩行，僅供參考。

“for line in f”每次都只會讀取一行數據到內存，我們可以設置一個buffer，比如每10000行用list暫存下，處理完了之後再繼續讀取文件。

這樣就實現了一段一段的讀取文件內容到內存。是不是很酷！

趕緊試試吧！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python處理大文件的內存問題

《日本蠟燭圖》讀書筆記 & 技術分析回測

《期貨-市場技術分析》讀書筆記

Python多線程編程深度探索：從入門到實戰

mongodb處理json數據很好

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

記一次yum故障的問題解決

文件寫入的工作原理

python處理大文件的內存問題

select.select()文件句柄的限制

Ansible ad-hoc的command和shell模塊的區別

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結