課堂筆記-爬蟲模塊簡介

課堂筆記

1. urllib.request模塊

1.1 版本

python2 :urllib2、urllib
python3 :把urllib和urllib2合併,urllib.request

1.2 常用的方法

• urllib.request.urlopen(“網址”) 作用 :向網站發起一個請求並獲取響應
• 字節流 = response.read()
• 字符串 = response.read().decode(“utf-8”)
• urllib.request.Request"網址",headers=“字典”) urlopen()不支持重構User-Agent

1.3 響應對象

• read() 讀取服務器響應的內容
• getcode() 返回HTTP的響應碼
• geturl() 返回實際數據的URL(防止重定向問題)

2. urllib.parse模塊

2.1 常用方法

• urlencode(字典)
• quote(字符串) (這個裏面的參數是個字符串)

3. 請求方式

• GET 特點 :查詢參數在URL地址中顯示
• POST
• 在Request方法中添加data參數 urllib.request.Request(url,data=data,headers=headers)
• data :表單數據以bytes類型提交,不能是str

4. requests模塊

4.1 安裝

• pip install requests
• 在開發工具中安裝

4.2 request常用方法

• requests.get(網址)

4.3 響應對象response的方法

• response.text 返回unicode格式的數據(str)
• response.content 返回字節流數據(二進制)
• response.content.decode(‘utf-8’) 手動進行解碼
• response.url 返回url
• response.encode() = ‘編碼’

4.4 requests模塊發送 POST請求

4.5 requests設置代理

• 使用requests添加代理只需要在請求方法中(get/post)傳遞proxies參數就可以了
• 代理網站
西刺免費代理IP:http://www.xicidaili.com/
快代理:http://www.kuaidaili.com/
代理雲:http://www.dailiyun.com/

4.6 cookie

cookie :通過在客戶端記錄的信息確定用戶身份
HTTP是一種無連接協議,客戶端和服務器交互僅僅限於 請求/響應過程,結束後斷開,下一次請求時,服務器會認爲是一個新的客戶端,爲了維護他們之間的連接,讓服務器知道這是前一個用戶發起的請求,必須在一個地方保存客戶端信息。

4.7 session

session :通過在服務端記錄的信息確定用戶身份 這裏這個session就是一個指的是會話

4.8 處理不信任的SSL證書

什麼是SSL證書?
• SSL證書是數字證書的一種,類似於駕駛證、護照和營業執照的電子副本。因爲配置在服務器上,也稱爲SSL服務器證書。SSL 證書就是遵守 SSL協議,由受信任的數字證書頒發機構CA,在驗證服務器身份後頒發,具有服務器身份驗證和數據傳輸加密功能

5. requests 模塊源碼分析

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章