現在比較喜歡閱讀HTML的電子書,PDF中往回跳轉不是很方便,並且PDF閱讀器都很臃腫,對於不需要添加腳註等特殊需求的電子書,HTML應該是首選了,只需要瀏覽器就能瀏覽,而且速度很快。
Linux下的wget可謂是網站鏡像的利器,在~/.bashrc中做了一個別名,alias getsite='wget -r -k -p -np',這樣見到網上好的電子書時,只需要:
getsite http://url/to/html/book
即可。
但是今天碰到一個網站,用瀏覽器可以打開,但是wget就立刻返回403。一開始還以爲是robots.txt文件限制了wget,但是增加robotx=off讓wget忽略robots之後仍然是這個錯誤。經過一番搜索明白了,原來某些站點禁止了wget這個User Agent,估計就是爲了防止整站下載,帶來過多的流量和盜版吧。(呃,那我下載這個網站有點太邪惡了……)
問題找到了就可以解決了,給wget加上參數:-U NoSuchBrowser/1.0 這樣對方看到的UA就不是wget了,順利下載……
問題是解決了,不過最後提醒一下讀者,如果有的網站禁止了wget,肯定有其原因,最好還是不要用wget去下載了,更不要盜版……