Github上適合Python初學者鑽研的「Python爬蟲框架」

目前市場上爬蟲框架有很多,不同語言不同類型的爬蟲框架都有。今天主要給大家安利9款我在學習Python的時候學習研究的幾款爬蟲框架,希望對大家選擇合適的爬蟲框架以及業餘學習都能有所幫助。

 

scrapy 「star:30114」

網絡爬蟲框架(基於twisted)。大名鼎鼎的爬蟲框架,功能強大,乃入門學習的必備良藥。支持多種多樣的配置特性,唯一可惜不支持分佈式的特性。

 

Grab

Grab是一個用於構建Web刮板的Python框架。藉助Grab,您可以構建各種複雜的網頁抓取工具,從簡單的5行腳本到處理數百萬個網頁的複雜異步網站抓取工具。Grab提供一個API用於執行網絡請求和處理接收到的內容,例如與HTML文檔的DOM樹進行交互。

 

pyspider 「star:12291」

pyspider 是一個用python實現的功能強大的網絡爬蟲系統,能在瀏覽器界面上進行腳本的編寫,功能的調度和爬取結果的實時查看,後端使用常用的數據庫進行爬取結果的存儲,還能定時設置任務與任務優先級等。

 

newspaper 「star:7119」

Newspaper可以用來提取新聞、文章和內容分析。使用多線程,支持10多種語言等。

 

portia 「star:6495」

基於Scrapy的可視化的爬蟲框架,對於編程經驗少的人來說相當適合學習。

 

cola 「star:1295」

Cola是一個很強大的分佈式爬蟲框架,對於用戶來說,只需編寫幾個特定的函數,而無需關注分佈式運行的細節。任務會自動分配到多臺機器上,整個過程對用戶是透明的。

 

fetchman 「star:35」

這個可能知道的人非常少,國人寫的爬蟲框架,採用grequests來併發請求。看過源代碼,寫的容易理解,所以對於新手來說很實用。

 

gain 「star:1720」

使用asyncio來異步爬取的輕量級爬蟲框架,代碼很容易理解,利於學習。

 

demiurge 「star:83」

這個框架也非常小衆,是一款基於PyQuery的微型爬蟲框架。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章