python爬蟲筆記(二)爬蟲原理

爬蟲:請求網站並提取數據的自動化程序
瀏覽器F12的html代碼中的信息就是爬取的目標

request到response

  1. 瀏覽器發送消息(請求)到服務器,這個過程叫HTTP Request
  2. 服務器返回瀏覽器信息,HTTP Response
  3. 瀏覽器處理信息,展示

request
常用請求方式 GET、POST,post請求需要構造表單進行請求,數據不會暴露在url中
url統一資源定位符
請求頭

HTML、JSON

AJAX——JSON解析

注意下面的示例,python中 '\' 是轉義的含義,那麼

從windows資源管理器中直接複製地址會導致文件寫入錯誤(路徑錯誤)[Errno 22] Invalid argument

import requests response = requests.get('http://www.baidu.com/img/baidu_jgylogo3.gif') print(response.content) with open('C:\FeigeDownload\1.gif','wb')as f: f.write(response.content) f.close


import requests
response = requests.get('http://www.baidu.com/img/baidu_jgylogo3.gif')
print(response.content)
with open('C:/FeigeDownload/1.gif','wb')as f:
    f.write(response.content)
    f.close

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章