爬蟲反扒機制處理——Referer等錯誤碼處理

    HTTP來源地址(referer,或 HTTP referer)是HTTP表頭的一個字段,用來表示從哪兒鏈接到目前的網頁,採用的格式是URL。換句話說,藉着HTTP來源地址,目前的網頁可以檢查訪客從哪裏而來,這也常被用來對付僞造的跨網站請求。

    網站裏面常常會用到這個屬性來對爬蟲進行限制,比如之前我們嘗試的千圖網爬蟲案例中就有針對下載時的referer處理


當你傻愣愣的去訪問頁面時,往往會返回這樣的錯誤信息頁面

    這裏因爲有關鍵字referer所以大家可能很快就能夠判斷出問題所在然後針對性做處理,但是更多時候往往會出現一些我們沒遇到過的情況,,比如IP黑名單,Token防盜鏈等等,我們可以去CDN 默認錯誤碼尋找常見的錯誤碼信息,然後找到問題再針對解決, 這裏舉一些常見的錯誤對應CDN

序號 錯誤碼(code) 錯誤描述(msg) 發生了什麼
1 40310001 invalid url URL 被禁止訪問
2 40310002 region is forbidden 觸發了地區訪問限制規則
3 40310003 too many requests 觸發了 IP 頻率限制規則
4 40310011 invalid User-Agent header 觸發了 User-Agent 防盜鏈規則
5 40310012 remote address is forbidden 觸發了 IP 黑白名單規則
6 40310013 invalid user token 觸發了 Token 防盜鏈規則
7 40310014 invalid Referer header 觸發了 Referer 防盜鏈規則
8 40310015 referer uri is forbidden 觸發了 Referer URI 防盜鏈規則

    比如之前的referer我們發現的錯誤所在然後直接在對圖片的下載過程中對referer進行設置即可(這裏直接將當前鏈接賦給referer)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章