scrapy學習之一-基礎

原創

2020-02-20 15:46

1、scrapy是python語言編寫的爬蟲框架，支持擴展，幫開發者完成了基礎的搭建，開發者只需開發核心代碼。至於爬取速率、cookie、線程數、間隔時間只需要配置即可。一定程度上方便了開發者。好像不支持分佈式吧，也談不上分佈式，支持併發，默認併發請求16個。

2、用scrapy主要寫spider、item、pipe。item是要採集的信息的載體，是一個對象，用作傳輸數據用。pipe是持久化組件，所有採集到的item都會傳到pipe裏保存。工作量就是spider的編寫，要寫url入口集，然後解析response，然後再爬取，深度爬取。保存再保存。

3、scrapy單獨也能運行，但放在專門的服務器上更方便，放到scrapyd服務器，統一管理，啓動停止方便。唯一的好處就是統一管理。

4、要理解scrapy裏的yield關鍵字的用法，理解懶遍歷。是python的一絕啊。

5、要會用xpath語法，解析爬取的response，篩選需要的信息。

6、要學會使用try。。。用法exception，使程序更健壯，不會因爲一個異常而終止全部任務。

7、要學會記錄日誌，記錄採集的日誌，便於查找問題

8、scrayp是基於twisted編寫的，註定是基於事件驅動、異步操作。有很多callback事件

9、scrapy包含有幾大模塊：調度器scheduler、item pipeline、engine主引擎、downloader下載器、spider爬蟲，一共5大模塊結構。各個組件異步工作，各自封裝。

10、解析html的技術有xpath、beautifulsoup、lxml

11、想要清洗數據，可以在pipeline項目管道中進行

12、start_urls裏的每個請求都會新建一個Request對象，然後每個Request都會回調parse方法。

13、可以寫多個pipeline按照順序處理一個item，就是說一個item要依次經過多個pipeline處理。此時可做清洗數據

14、scrapy可以發郵件哦、也可以記錄日誌哦。不用再插入數據庫了，記錄成日誌文件就行啦，減少數據庫的壓力了啊

發佈了27 篇原創文章 · 獲贊 3 · 訪問量 3萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.