課堂筆記
1. urllib.request模塊
1.1 版本
python2 :urllib2、urllib
python3 :把urllib和urllib2合併,urllib.request
1.2 常用的方法
• urllib.request.urlopen(“網址”) 作用 :向網站發起一個請求並獲取響應
• 字節流 = response.read()
• 字符串 = response.read().decode(“utf-8”)
• urllib.request.Request"網址",headers=“字典”) urlopen()不支持重構User-Agent
1.3 響應對象
• read() 讀取服務器響應的內容
• getcode() 返回HTTP的響應碼
• geturl() 返回實際數據的URL(防止重定向問題)
2. urllib.parse模塊
2.1 常用方法
• urlencode(字典)
• quote(字符串) (這個裏面的參數是個字符串)
3. 請求方式
• GET 特點 :查詢參數在URL地址中顯示
• POST
• 在Request方法中添加data參數 urllib.request.Request(url,data=data,headers=headers)
• data :表單數據以bytes類型提交,不能是str
4. requests模塊
4.1 安裝
• pip install requests
• 在開發工具中安裝
4.2 request常用方法
• requests.get(網址)
4.3 響應對象response的方法
• response.text 返回unicode格式的數據(str)
• response.content 返回字節流數據(二進制)
• response.content.decode(‘utf-8’) 手動進行解碼
• response.url 返回url
• response.encode() = ‘編碼’
4.4 requests模塊發送 POST請求
4.5 requests設置代理
• 使用requests添加代理只需要在請求方法中(get/post)傳遞proxies參數就可以了
• 代理網站
西刺免費代理IP:http://www.xicidaili.com/
快代理:http://www.kuaidaili.com/
代理雲:http://www.dailiyun.com/
4.6 cookie
cookie :通過在客戶端記錄的信息確定用戶身份
HTTP是一種無連接協議,客戶端和服務器交互僅僅限於 請求/響應過程,結束後斷開,下一次請求時,服務器會認爲是一個新的客戶端,爲了維護他們之間的連接,讓服務器知道這是前一個用戶發起的請求,必須在一個地方保存客戶端信息。
4.7 session
session :通過在服務端記錄的信息確定用戶身份 這裏這個session就是一個指的是會話
4.8 處理不信任的SSL證書
什麼是SSL證書?
• SSL證書是數字證書的一種,類似於駕駛證、護照和營業執照的電子副本。因爲配置在服務器上,也稱爲SSL服務器證書。SSL 證書就是遵守 SSL協議,由受信任的數字證書頒發機構CA,在驗證服務器身份後頒發,具有服務器身份驗證和數據傳輸加密功能