# coding:utf-8 # 學習1 # import urllib # # 查看方法內容 # print(dir(urllib)) # # 查看幫助文檔 # help(urllib) # # PACKAGE CONTENTS (包裏面的內容) # # error # # parse # # request # # response # # robotparser # 學習2 # # urllib 包下的模塊 request # import urllib.request # print(dir(urllib.request)) # help(urllib.request) # 學習3 import urllib.request # post/get 2中請求方式 help(urllib.request.urlopen) # decode表示網頁的解碼方式, encode 表示展現是的編碼 # 案例1: utf-8 # # 網頁編碼是 utf-8 # url="http://www.iplaypython.com" # html=urllib.request.urlopen(url) # # 獲取網頁header信息,有網站編碼格式 # print(html.info()) # html_content=html.read().decode("utf-8") # print(html_content) # 案例2: gbk (python中 gb2312統一寫成gbk) # # 網頁編碼是 gb2312 # url="http://www.163.com" # html=urllib.request.urlopen(url) # # 獲取網頁header信息,有網站編碼格式 # print(html.info()) # html_content=html.read().decode("gbk") # print(html_content) # 學習4 import urllib.request # print(dir(html)) # 獲取網頁所在的header信息 url="http://www.iplaypython.com" html=urllib.request.urlopen(url) # # 獲取網頁header信息,有網站編碼格式 print(html.info()) # 獲取網站返回的狀態碼 print("返回的狀態碼: %s" % html.getcode()) """ 網頁狀態碼 200正常訪問 301重定向 302臨時重定向 403禁止訪問 404網頁不存在 500服務器忙/無響應 http權威指南,專門介紹http協議,推薦大家買紙質檔 Web開發,這本書是必備的 """ # 獲取用戶傳入的url print(html.geturl()) # 網頁打開後,記得關閉,便於內存回收 html.close() # 學習5 import urllib.request # 網頁爬取,下載網頁 # urllib.request.urlretrieve(url,"e:/_python/other/abc.html") #將網頁保存爲html格式 urllib.request.urlretrieve(url,"e:/_python/other/abc.txt") #將網頁保存爲txt格式 # 網頁打開後,記得關閉,便於內存回收 html.close()
爬蟲學習
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.