【爬蟲】01 urllib 爬取網頁

import urllib.request

response = urllib.request.urlopen('https://www.baidu.com/')

data = response.readlines()
print(data)

# 返回當前環境有關信息
print(response.info())

# 返回狀態碼 200成功處理了請求
print(response.getcode())

# 返回當前正在爬取的 url 地址
print(response.geturl())

# 解碼
url = r'https://www.baidu.com/s?wd=200%E4%BB%A3%E8%A1%A8%E4%BB%80%E4%B9%88&rsv_spt=1&rsv_iqid=0x95ea389a0003eb1d&issp' \
      '=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=1&rsv_dl=tb&rsv_sug3=21&rsv_sug1=28&rsv_sug7=101' \
      '&rsv_sug2=0&inputT=9758&rsv_sug4=10156 '
newUrl = urllib.request.unquote(url)
print(newUrl)

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章