記錄一些常用的爬蟲工具:
常用爬蟲庫
1、Requests
比較簡單,常用的爬蟲庫
2、pyspider
一個國人編寫的強大的網絡爬蟲系統並帶有強大的WebUI。採用Python語言編寫,分佈式架構,支持多種數據庫後端,強大的WebUI支持腳本編輯器,任務監視器,項目管理器以及結果查看器
3、Scrapy
Scrapy 使用了 Twisted'twɪstɪd異步網絡框架來處理網絡通訊,可以加快我們的下載速度,不用自己去實現異步框架,並且包含了各種中間件接口,可以靈活的完成各種需求。
4、Requests-HTML
requests-html 是基於現有的框架 PyQuery、Requests、lxml、beautifulsoup4等庫進行了二次封裝,作者將Requests設計的簡單強大的優點帶到了該項目中。
5、Selenium
Selenium也是一個用於Web應用程序測試的工具。Selenium測試直接運行在瀏覽器中,就像真正的用戶在操作一樣。
ChromeDriver:驅動谷歌瀏覽器的插件
8、PhantomJS
PhantomJS是一個基於webkit的JavaScript API。它使用QtWebKit作爲它核心瀏覽器的功能,使用webkit來編譯解釋執行JavaScript代碼。任何你可以在基於webkit瀏覽器做的事情,它都能做到。
可配合Selenium使用
9、aiohttp
實現異步爬蟲的方法
解析庫
1、lxml
2、Beautiful Soup
3、pyquery
4、tesserocr
獲取解析頁面數據的方法
1、re正則匹配
2、XPath匹配
3、select匹配
4、json 某些頁面需要json處理數據
App的爬取(暫沒涉及)
1、Charles
2、mitmproxy
3、mitmdump
4、Appium
爬蟲學習網站:
1、崔慶才博客,有很多好文章
網站主頁:https://cuiqingcai.com
Python3網絡爬蟲開發實戰教程:https://cuiqingcai.com/5052.html
2、測試教程網
http://www.testclass.net/
3、知乎爬蟲彙總資料
https://zhuanlan.zhihu.com/p/24358829?refer=passer#!