爬蟲筆記1:Python爬蟲常用庫

請求庫:
1、urllib:urllib庫是Python3自帶的庫(Python2有urllib和urllib2,到了Python3統一爲urllib),這個庫是爬蟲裏最簡單的庫。
2、requests:requests屬於第三方庫,使用起來比urllib要簡單不少,且功能更加強大,是最常用的請求庫。
3、Selenium:Selenium屬於第三方庫,它是一個自動化測試工具,可以利用它自動完成瀏覽器的操作,如點擊,下拉,拖拽等等,通常完成ajax複雜的操作。


解析庫:
1、lxml:屬於第三方庫,支持HTML和xml的解析,支持XPath的解析方式,解析效率非常高。
2、Beautiful Soup:屬於第三方庫,API強大,使用也方便。
3、pyquery:屬於第三方庫,功能強大在於css選擇器上,對jQuery比較瞭解的話使用pyquery將會十分方便,因此我也比較推薦使用pyquery。


存儲庫:
1、PyMySQL:MySQL作爲最常用的數據庫之一,PyMySQL也是爬蟲後存儲數據的非常好的選擇,它可以實現對數據庫的創建表,增刪查改等操作。
2、PyMongo:PyMongo是和MongoDB進行交互的庫。
3、redis-py:redis-py是和Redis進行交互的庫。


圖像識別庫:
1、tesserocr:tesserocr是Python使用OCR技術來識別圖像,本質是對tesseract做一層API的封裝,所以在安裝tesserocr之前必須先安裝tesseract。


爬蟲框架
1、pyspider:pyspider 是由國人 binux 編寫的強大的網絡爬蟲系統,它帶有強大的 WebUI、腳本編輯器、任務監控器、項目管理以及結果處理器,它支持多種數據庫後端、多種消息隊列、JavaScript 渲染頁面的爬取。依賴庫有PhantomJS。
2、Scrapy:功能極其強大,依賴庫較多。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章