爬蟲筆記1：Python爬蟲常用庫

原創

2019-01-12 12:58

請求庫：
1、urllib：urllib庫是Python3自帶的庫（Python2有urllib和urllib2，到了Python3統一爲urllib），這個庫是爬蟲裏最簡單的庫。
2、requests：requests屬於第三方庫，使用起來比urllib要簡單不少，且功能更加強大，是最常用的請求庫。
3、Selenium：Selenium屬於第三方庫，它是一個自動化測試工具，可以利用它自動完成瀏覽器的操作，如點擊，下拉，拖拽等等，通常完成ajax複雜的操作。

解析庫：
1、lxml：屬於第三方庫，支持HTML和xml的解析，支持XPath的解析方式，解析效率非常高。
2、Beautiful Soup：屬於第三方庫，API強大，使用也方便。
3、pyquery：屬於第三方庫，功能強大在於css選擇器上，對jQuery比較瞭解的話使用pyquery將會十分方便，因此我也比較推薦使用pyquery。

存儲庫：
1、PyMySQL：MySQL作爲最常用的數據庫之一，PyMySQL也是爬蟲後存儲數據的非常好的選擇，它可以實現對數據庫的創建表，增刪查改等操作。
2、PyMongo：PyMongo是和MongoDB進行交互的庫。
3、redis-py：redis-py是和Redis進行交互的庫。

圖像識別庫：
1、tesserocr：tesserocr是Python使用OCR技術來識別圖像，本質是對tesseract做一層API的封裝，所以在安裝tesserocr之前必須先安裝tesseract。

爬蟲框架
1、pyspider：pyspider 是由國人 binux 編寫的強大的網絡爬蟲系統，它帶有強大的 WebUI、腳本編輯器、任務監控器、項目管理以及結果處理器，它支持多種數據庫後端、多種消息隊列、JavaScript 渲染頁面的爬取。依賴庫有PhantomJS。
2、Scrapy：功能極其強大，依賴庫較多。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

爬蟲筆記1：Python爬蟲常用庫

985 碩士程序員，空窗 4 個月沒有 Offer！

【入門教程】5分鐘教你快速學會集成Java springboot ~

營銷系統黑名單優化：位圖的應用解析

一文搞懂 Spring 循環依賴

我真的從測試轉成了開發......

盛大發布 | Zabbix 7.0 LTS--性能與擴展的卓越融合

nginx添加相應配置，通過瀏覽器訪問或curl時返回客戶端對應公網IP

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

python內置函數——sorted

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

Java簡介

Java常量與變量

Java面向對象編程思想

Java關鍵字和標識符

機器學習之決策樹（二）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結