Python3爬蟲1-請求庫

原創

新意识-有意思

2020-06-25 20:19

獲取網頁源代碼是爬蟲的第一步，在Python中最常用的就是urllib和request兩個庫了。

urllib庫介紹

先說一下python版本變化前後的區別，這個曾給我帶來不小的麻煩。

在Python2中，有內置的urllib、urllib2兩個庫，urllib 側重於 url 基本的請求構造，urllib2側重於 http 協議請求的處理。
而在Python3中，已經不存在urllib2這個庫了，統一爲urllib。urllib作爲Python3的標準庫，基本上涵蓋了基礎的網絡請求功能。它包含如下四個模塊：
1. request：它是最基本的HTTP請求模塊用來模擬發送請求；
2. error：異常處理模塊，用來捕獲異常自定義處理方式，保證程序不會意外終止；
3. parse：提供URL的處理方式，如拆分、解析、合併等；
4. robotparser：用於處理網站的robots.txt文件，規範爬蟲。
另外有一個擴展的urllib3，在urllib上增加了連接池等功能，兩者互相都有補充的部分。urllib3是服務於升級的http 1.1標準，擁有高效 http連接池管理及 http 代理服務的功能庫，從 urllib 到 urllib2和urllib3是順應互聯應用升級浪潮的，這股浪潮從通用的網絡連接服務到互聯網網絡的頭部應用：支持長連接的 http 訪問，網絡訪問不斷的便捷化。

使用Python3的urllib庫

參考簡書Python網絡請求urllib和urllib3詳解

requests庫介紹

urllib庫很全，但也有很多不方便之處。爲了更加方便的實現請求頭構造、Cookies等功能，Python中有更強大的request庫。

使用request庫

還是參考簡書【Requests】優雅到骨子裏的網絡請求庫，因爲他寫得真的很好。

源代碼有了，但需要正確的解析過濾才能稱得上數據。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

restful(一) 簡介

RESTful 簡介傳統理解，軟件和網絡是兩個不同的領域，很少有交集：軟件開發主要針對單機環境，網絡則主要研究系統之間的通信互聯網的興起，使得兩個領域開始融合，現在我們必須考慮，如何開發在互聯網環境中使用的軟件網站即軟件，這

疯狂打码中

2020-07-08 07:56:25

樂龍仿真軟件下載

ralc物流仿真軟件是一款三維動畫物流系統仿真快速建模與分析軟件。它能夠運用三維動畫系統的仿真模塊對物流的倉儲配送流程系統進行全方面的仿真規劃設計、分析驗證，並且還能夠通過物流設備和控制系統對作業的人員、作業的機器以及業務信息數據進行系統

2020-07-08 04:55:13

adobe scout cc 2015中文版下載(附使用教程)

adobe scout cc 2015是一款輕量級的內存概要分析軟件，廣泛適用於桌面 (Flash Player) 和移動設備 (Adobe AIR) 上運行的 Flash 內容。它能夠讓您洞悉過去無法瞭解的 Flash 內容行爲。ado

2020-07-08 04:55:13

ps 2020更新啦安裝包

Photoshop是Adobe公司的王牌產品，它是一款圖像處理軟件，在圖形圖像處理領域擁有毋庸置疑的權威。無論是平面廣告設計、室內裝潢，還是處理個人照片，Photoshop都已經成爲不可或缺的工具。隨着近年來個人電腦的普及，使用Photo

2020-07-07 13:24:14

免費！全網！真正的聽歌下載神器

### 所需工具----一個程序：音樂間諜 ### 音樂間諜是一款很好用的聽歌工具，曾經有一段時間內這個軟件被和諧過g，後來更新之後又能夠使用了，它的作用是通過記錄更新各大音樂網站的歌曲，並將其中一些會因爲版權問題下架或者付費的歌曲錄下來

2020-07-07 12:42:34

接口測試工具Postman的使用方法

接口測試工具Postman的使用方法 1.什麼是接口用來傳輸數據,並對數據進行一系列處理 2.接口測試關注的是入參與返回值是否符合預計 3.接口通信前提與遠端服務器可以進行通信 4.請求方式 get : 向服務

2020-07-07 08:33:00

unzip解壓文件中文亂碼問題的解決方案

linux下解壓縮文件中文亂碼問題的解決原因解決問題：原因在windows上壓縮的文件，是以系統默認編碼中文來壓縮文件。由於zip文件中沒有聲明其編碼，所以linux上的unzip一般以默認編碼解壓，中文文件名會出現亂碼。雖

2020-07-07 03:45:29

解決linux安裝中文字體的方法

解決linux安裝中文字體的方法查看系統字體安裝字體查看系統字體在開始安裝之前，我們先查看系統中已經安裝的字體。要查看系統中已經安裝的字體，我們可以使用fc-list命令進行查看。如果系統中沒有該命令的話，我們需要先安裝相關

2020-07-07 03:45:29

解決Linux下使用unoconv命令將word、xls、pptx轉pdf中文亂碼問題

解決Linux下使用unoconv命令將word、xls、pptx轉pdf中文亂碼問題轉出pdf文檔中文亂碼解決方案轉出pdf文檔中文亂碼在Linux環境下word轉成pdf。在用unoconv做文檔轉換時，發現中文轉換亂碼

2020-07-07 03:45:29

自己的工具包Tools

115下載 ______________________________________________________________ │ 溫度.exe │ ├─OCR │ Free OCR to Word.rar │

2020-07-07 03:15:49

sublime text 3 註冊碼

—– BEGIN LICENSE —– TwitterInc 200 User License EA7E-890007 1D77F72E 390CDD93 4DCBA022 FAF60790 61AA12C0 A37081C5 D0316

2020-07-06 23:30:31

基於軟件開源實踐（FLOSS）論共產主義的可實現性

好久沒發博客，來個狠的，我不信挨踢界有人比我更蛋疼來研究這個。在馬克思提出共產主義100多百年後，軟件開發領域中出現了一種特別的生產方式：開源(FLOSS：Free/Libre and Open Source Software)，並爆發

2020-07-06 22:47:51

CentOS 7.3 安裝指南

導讀基於 Red Hat 企業版的源代碼的最新版本的 CentOS 7 在今年的 12月發佈了 CentOS Linux 7 (1611) ，包含了許多 bug 修復、新的包更新，比如 Samba、Squid、libreoffice、

2020-07-06 21:53:32

你用“油猴”了嗎

最好使用firefox瀏覽器，所需要的tampermonkey（我覺得稱爲暴力猴比較合適），百度網盤助手插件都有。不需要自己額外去找來下載。只需要再下個xDown即可。個人感覺比motrix好用多了。詳細請參考：https:/

2020-07-06 12:09:21

Android 存儲數據SharedPreferences詳解

在Android應用開發中，需要經常保存一些用戶對於自己軟件的設置，所以，Android平臺給我們提供了一個SharedPreferences類,它是一個輕量級應用程序內部輕量級的存儲方案,特別適合用於保存軟件配置參數 Share

2020-07-06 05:46:53

24小時熱門文章

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

最新文章

最新評論文章