wget正常 curl、 應用報錯301 Moved Permanently

  1. 301 Moved Permanently 是什麼意思
    • 301永久重定向是一種非常重要的“自動轉向”技術,是網址重定向最爲可行的一種辦法。當用戶或搜索引擎向網站服務器發出瀏覽請求時,服務器返回的HTTP數據流中頭信息(header)中的狀態碼的一種,表示本網頁永久性轉移到另一個地址
    1. 簡而言之,告訴用戶我們搬家了
  2. 詭計
    1. 瀏覽器可以訪問說明這個網址並沒有搬家
  3. 真相
    1. 服務器爲了防止被重複爬取
    2. 爲了避免打擾,直接說自己搬家了,除非訪問的人有憑證證明自己--cookie
  4. 解決方案
    1. 我是真的爬蟲:爬蟲在第一次訪問網站時保存cookie,然後在第二次訪問時帶上cookie訪問網站即可
    2. 我是應用請求方:換一種請求方式,當前我是用apache.HttpClient被服務器當做爬蟲了
  5. 建議
    1. 你要清楚自己的網站爲了防爬是要做到寧可錯殺一千不可放過一個?還是寧可放過一千不可錯殺一個
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章