爬蟲之header

有些網站不會同意程序直接用上面的方式進行訪問,如果識別有問題,那麼站點根本不會響應,所以爲了完全模擬瀏覽器的工作,我們需要設置一些Headers 的屬性。

首先,打開我們的瀏覽器,調試瀏覽器F12,我用的是Chrome,打開網絡監聽,示意如下,比如知乎,點登錄之後,我們會發現登陸之後界面都變化了,出現一個新的界面,實質上這個頁面包含了許許多多的內容,這些內容也不是一次性就加載完成的,實質上是執行了好多次請求,一般是首先請求HTML文件,然後加載JS,CSS 等等,經過多次請求之後,網頁的骨架和肌肉全了,整個網頁的效果也就出來了。

簡書著作權歸作者所有,任何形式的轉載都請聯繫作者獲得授權並註明出處。
拆分這些請求,我們只看一第一個請求,你可以看到,有個Request URL,還有headers,下面便是response,圖片顯示得不全,小夥伴們可以親身實驗一下。那麼這個頭中包含了許許多多是信息,有文件編碼啦,壓縮方式啦,請求的agent啦等等。

其中,agent就是請求的身份,如果沒有寫入請求身份,那麼服務器不一定會響應,所以可以在headers中設置agent,例如下面的例子,這個例子只是說明了怎樣設置的headers,小夥伴們看一下設置格式就好。

import urllib
import urllib2

url = 'http://www.server.com/login'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
values = {'username' : 'cqc', 'password' : 'XXXX' }
headers = { 'User-Agent' : user_agent }
data = urllib.urlencode(values)
request = urllib2.Request(url, data, headers)
response = urllib2.urlopen(request)
page = response.read()

這樣,我們設置了一個headers,在構建request時傳入,在請求時,就加入了headers傳送,服務器若識別了是瀏覽器發來的請求,就會得到響應。

另外,我們還有對付”反盜鏈”的方式,對付防盜鏈,服務器會識別headers中的referer是不是它自己,如果不是,有的服務器不會響應,所以我們還可以在headers中加入referer

例如我們可以構建下面的headers
headers = { 'User-Agent' : 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' ,
'Referer':'http://www.zhihu.com/articles' }

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章