爬蟲學習

爬蟲學習

原創

2019-02-22 23:04


# coding:utf-8
# 學習1
# import urllib
# # 查看方法內容
# print(dir(urllib))
# # 查看幫助文檔
# help(urllib)
# # PACKAGE CONTENTS （包裏面的內容）
#
#    error
#
#    parse
#
#    request
#
#    response
#
#    robotparser
# 學習2
# # urllib 包下的模塊 request
# import urllib.request
# print(dir(urllib.request))
# help(urllib.request)
 
# 學習3
import urllib.request
# post/get 2中請求方式
help(urllib.request.urlopen)
# decode表示網頁的解碼方式, encode 表示展現是的編碼
# 案例1： utf-8
# # 網頁編碼是 utf-8
# url="http://www.iplaypython.com"
# html=urllib.request.urlopen(url)
# # 獲取網頁header信息，有網站編碼格式
# print(html.info())
# html_content=html.read().decode("utf-8")
# print(html_content)
# 案例2： gbk (python中 gb2312統一寫成gbk)
# # 網頁編碼是 gb2312
# url="http://www.163.com"
# html=urllib.request.urlopen(url)
# # 獲取網頁header信息，有網站編碼格式
# print(html.info())
# html_content=html.read().decode("gbk")
# print(html_content)
 
# 學習4
import urllib.request
# print(dir(html))
# 獲取網頁所在的header信息
url="http://www.iplaypython.com"
html=urllib.request.urlopen(url)
# # 獲取網頁header信息，有網站編碼格式
print(html.info())
# 獲取網站返回的狀態碼
print("返回的狀態碼: %s" % html.getcode())
"""
網頁狀態碼
200正常訪問 
301重定向               302臨時重定向
403禁止訪問             404網頁不存在
500服務器忙/無響應
http權威指南，專門介紹http協議，推薦大家買紙質檔
Web開發，這本書是必備的
"""
# 獲取用戶傳入的url
print(html.geturl())
# 網頁打開後，記得關閉，便於內存回收
html.close()
 
# 學習5
import urllib.request
# 網頁爬取，下載網頁
#
urllib.request.urlretrieve(url,"e:/_python/other/abc.html")   #將網頁保存爲html格式
urllib.request.urlretrieve(url,"e:/_python/other/abc.txt")     #將網頁保存爲txt格式
# 網頁打開後，記得關閉，便於內存回收
html.close()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

微服務實踐k8s&dapr開發部署實驗（2）狀態管理

Win10 LTSC 2019 安裝後的一些步驟

Python 潮流週刊#52：Python 處理 Excel 的資源

python寫入txt文件正常，但是寫入csv文件中文亂碼問題

環境變量

Ubuntu的那些事

python

關於python中文轉碼出現的錯誤

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結