scrapy學習之一-基礎

1、scrapy是python語言編寫的爬蟲框架,支持擴展,幫開發者完成了基礎的搭建,開發者只需開發核心代碼。至於爬取速率、cookie、線程數、間隔時間只需要配置即可。一定程度上方便了開發者。好像不支持分佈式吧,也談不上分佈式,支持併發,默認併發請求16個。

2、用scrapy主要寫spider、item、pipe。item是要採集的信息的載體,是一個對象,用作傳輸數據用。pipe是持久化組件,所有採集到的item都會傳到pipe裏保存。工作量就是spider的編寫,要寫url入口集,然後解析response,然後再爬取,深度爬取。保存再保存。

3、scrapy單獨也能運行,但放在專門的服務器上更方便,放到scrapyd服務器,統一管理,啓動停止方便。唯一的好處就是統一管理。

4、要理解scrapy裏的yield關鍵字的用法,理解懶遍歷。是python的一絕啊。

5、要會用xpath語法,解析爬取的response,篩選需要的信息。

6、要學會使用try。。。用法exception,使程序更健壯,不會因爲一個異常而終止全部任務。

7、要學會記錄日誌,記錄採集的日誌,便於查找問題

8、scrayp是基於twisted編寫的,註定是基於事件驅動、異步操作。有很多callback事件

9、scrapy包含有幾大模塊:調度器scheduler、item pipeline、engine主引擎、downloader下載器、spider爬蟲,一共5大模塊結構。各個組件異步工作,各自封裝。

10、解析html的技術有xpath、beautifulsoup、lxml

11、想要清洗數據,可以在pipeline項目管道中進行

12、start_urls裏的每個請求都會新建一個Request對象,然後每個Request都會回調parse方法。

13、可以寫多個pipeline按照順序處理一個item,就是說一個item要依次經過多個pipeline處理。此時可做清洗數據

14、scrapy可以發郵件哦、也可以記錄日誌哦。不用再插入數據庫了,記錄成日誌文件就行啦,減少數據庫的壓力了啊


發佈了27 篇原創文章 · 獲贊 3 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章