python 爬蟲工具記錄

記錄一些常用的爬蟲工具:

常用爬蟲庫

1、Requests

比較簡單,常用的爬蟲庫

2、pyspider

一個國人編寫的強大的網絡爬蟲系統並帶有強大的WebUI。採用Python語言編寫,分佈式架構,支持多種數據庫後端,強大的WebUI支持腳本編輯器,任務監視器,項目管理器以及結果查看器

3、Scrapy

Scrapy 使用了 Twisted'twɪstɪd異步網絡框架來處理網絡通訊,可以加快我們的下載速度,不用自己去實現異步框架,並且包含了各種中間件接口,可以靈活的完成各種需求。

4、Requests-HTML

requests-html 是基於現有的框架 PyQuery、Requests、lxml、beautifulsoup4等庫進行了二次封裝,作者將Requests設計的簡單強大的優點帶到了該項目中。

5、Selenium

Selenium也是一個用於Web應用程序測試的工具。Selenium測試直接運行在瀏覽器中,就像真正的用戶在操作一樣。

ChromeDriver:驅動谷歌瀏覽器的插件

8、PhantomJS

PhantomJS是一個基於webkit的JavaScript API。它使用QtWebKit作爲它核心瀏覽器的功能,使用webkit來編譯解釋執行JavaScript代碼。任何你可以在基於webkit瀏覽器做的事情,它都能做到。

可配合Selenium使用

9、aiohttp

實現異步爬蟲的方法

解析庫

1、lxml

2、Beautiful Soup

3、pyquery

4、tesserocr

獲取解析頁面數據的方法

1、re正則匹配

2、XPath匹配

3、select匹配

4、json 某些頁面需要json處理數據

App的爬取(暫沒涉及)

1、Charles

2、mitmproxy

3、mitmdump

4、Appium

爬蟲學習網站:

1、崔慶才博客,有很多好文章

網站主頁:https://cuiqingcai.com

Python3網絡爬蟲開發實戰教程:https://cuiqingcai.com/5052.html

2、測試教程網

http://www.testclass.net/

3、知乎爬蟲彙總資料

https://zhuanlan.zhihu.com/p/24358829?refer=passer#!





發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章