解決wget被某些網站禁用

現在比較喜歡閱讀HTML的電子書,PDF中往回跳轉不是很方便,並且PDF閱讀器都很臃腫,對於不需要添加腳註等特殊需求的電子書,HTML應該是首選了,只需要瀏覽器就能瀏覽,而且速度很快。

  Linux下的wget可謂是網站鏡像的利器,在~/.bashrc中做了一個別名,alias getsite='wget -r -k -p -np',這樣見到網上好的電子書時,只需要:
  getsite http://url/to/html/book

即可。

 但是今天碰到一個網站,用瀏覽器可以打開,但是wget就立刻返回403。一開始還以爲是robots.txt文件限制了wget,但是增加robotx=off讓wget忽略robots之後仍然是這個錯誤。經過一番搜索明白了,原來某些站點禁止了wget這個User Agent,估計就是爲了防止整站下載,帶來過多的流量和盜版吧。(呃,那我下載這個網站有點太邪惡了……) 

  問題找到了就可以解決了,給wget加上參數:-U NoSuchBrowser/1.0 這樣對方看到的UA就不是wget了,順利下載……

 問題是解決了,不過最後提醒一下讀者,如果有的網站禁止了wget,肯定有其原因,最好還是不要用wget去下載了,更不要盜版……

發佈了59 篇原創文章 · 獲贊 49 · 訪問量 15萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章