Pycharm打開(打印)大數據文件內容顯示不全的解決方法

前言
昨晚寫了個小爬蟲,簡單分析下發現可以修改請求的url,直接獲取所有目標的數據。想先打印在控制檯看看,發現打印的數據不全,一開始還以爲被反爬蟲了,獲取的數據本身不全,後來將數據直接保存JSON文件(3兆多大小),用Ubuntu文檔編輯器打不開(直接卡死),用vim打開發現數據完整(說明爬蟲獲取的數據本身沒毛病),再在Pycharm用Python打開發現提示文件過大,打印在控制檯也還是顯示不全,在網上找了好久才找到了解決方法?。

正文
原來Pycharm IDEA對能關聯的文件大小做了限制,主要是爲了保護內存,默認值爲2500kb,這對爬蟲用戶來說相當不友好,但時安裝軟件的時候也不提醒下?

在Pycharm菜單找到Edit Custom Properties…


追加以下字段
idea.max.intellisense.filesize = 20000
idea.max.content.load.filesize = 20000
idea.cycle.buffer.size = 20000
其中20000代表限制大小爲20000kb(暫時應該夠用?),可自行修改


重啓Pycharm


搞定


總結
解決方法很簡單,但是找到問題的來源很辛苦,一開始我以爲是爬蟲代碼的問題,就反覆修改請求頭,換代理,掉了坑裏好久,後來發現不是數據本身問題才慢慢恍然大悟,最終Google到了方法。所以要對自己的爬蟲自信點,有問題全是IDEA的鍋?
————————————————
版權聲明:本文爲CSDN博主「Laen丶」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/qq_36303970/article/details/87544790

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章