python 爬蟲工具記錄

原創

天愚

2018-09-01 20:15

記錄一些常用的爬蟲工具：

常用爬蟲庫

1、Requests

比較簡單，常用的爬蟲庫

2、pyspider

一個國人編寫的強大的網絡爬蟲系統並帶有強大的WebUI。採用Python語言編寫，分佈式架構，支持多種數據庫後端，強大的WebUI支持腳本編輯器，任務監視器，項目管理器以及結果查看器

3、Scrapy

Scrapy 使用了 Twisted'twɪstɪd異步網絡框架來處理網絡通訊，可以加快我們的下載速度，不用自己去實現異步框架，並且包含了各種中間件接口，可以靈活的完成各種需求。

4、Requests-HTML

requests-html 是基於現有的框架 PyQuery、Requests、lxml、beautifulsoup4等庫進行了二次封裝，作者將Requests設計的簡單強大的優點帶到了該項目中。

5、Selenium

Selenium也是一個用於Web應用程序測試的工具。Selenium測試直接運行在瀏覽器中，就像真正的用戶在操作一樣。

ChromeDriver：驅動谷歌瀏覽器的插件

8、PhantomJS

PhantomJS是一個基於webkit的JavaScript API。它使用QtWebKit作爲它核心瀏覽器的功能，使用webkit來編譯解釋執行JavaScript代碼。任何你可以在基於webkit瀏覽器做的事情，它都能做到。

可配合Selenium使用

9、aiohttp

實現異步爬蟲的方法

解析庫

1、lxml

2、Beautiful Soup

3、pyquery

4、tesserocr

獲取解析頁面數據的方法

1、re正則匹配

2、XPath匹配

3、select匹配

4、json 某些頁面需要json處理數據

App的爬取（暫沒涉及）

1、Charles

2、mitmproxy

3、mitmdump

4、Appium

爬蟲學習網站：

1、崔慶才博客，有很多好文章

網站主頁：https://cuiqingcai.com

Python3網絡爬蟲開發實戰教程：https://cuiqingcai.com/5052.html

2、測試教程網

http://www.testclass.net/

3、知乎爬蟲彙總資料

https://zhuanlan.zhihu.com/p/24358829?refer=passer#!

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python 爬蟲工具記錄

記錄一些常用的爬蟲工具：

常用爬蟲庫

解析庫

獲取解析頁面數據的方法

App的爬取（暫沒涉及）

爬蟲學習網站：

Python-類02（烏龜喫魚遊戲）

Python學習筆記01

python map函數

Python requests爬蟲爬取小說數據

python解決字符串倒序輸出

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結