爬蟲學習


# coding:utf-8
# 學習1
# import urllib
# # 查看方法內容
# print(dir(urllib))
# # 查看幫助文檔
# help(urllib)
# # PACKAGE CONTENTS (包裏面的內容)
#
#    error
#
#    parse
#
#    request
#
#    response
#
#    robotparser
# 學習2
# # urllib 包下的模塊 request
# import urllib.request
# print(dir(urllib.request))
# help(urllib.request)
 
# 學習3
import urllib.request
# post/get 2中請求方式
help(urllib.request.urlopen)
# decode表示網頁的解碼方式, encode 表示展現是的編碼
# 案例1: utf-8
# # 網頁編碼是 utf-8
# url="http://www.iplaypython.com"
# html=urllib.request.urlopen(url)
# # 獲取網頁header信息,有網站編碼格式
# print(html.info())
# html_content=html.read().decode("utf-8")
# print(html_content)
# 案例2: gbk (python中 gb2312統一寫成gbk)
# # 網頁編碼是 gb2312
# url="http://www.163.com"
# html=urllib.request.urlopen(url)
# # 獲取網頁header信息,有網站編碼格式
# print(html.info())
# html_content=html.read().decode("gbk")
# print(html_content)
 
# 學習4
import urllib.request
# print(dir(html))
# 獲取網頁所在的header信息
url="http://www.iplaypython.com"
html=urllib.request.urlopen(url)
# # 獲取網頁header信息,有網站編碼格式
print(html.info())
# 獲取網站返回的狀態碼
print("返回的狀態碼: %s" % html.getcode())
"""
網頁狀態碼
200正常訪問 
301重定向               302臨時重定向
403禁止訪問             404網頁不存在
500服務器忙/無響應
http權威指南,專門介紹http協議,推薦大家買紙質檔
Web開發,這本書是必備的
"""
# 獲取用戶傳入的url
print(html.geturl())
# 網頁打開後,記得關閉,便於內存回收
html.close()
 
# 學習5
import urllib.request
# 網頁爬取,下載網頁
#
urllib.request.urlretrieve(url,"e:/_python/other/abc.html")   #將網頁保存爲html格式
urllib.request.urlretrieve(url,"e:/_python/other/abc.txt")     #將網頁保存爲txt格式
# 網頁打開後,記得關閉,便於內存回收
html.close()


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章