資料來源:http://www.truevue.org/linux/wget-download-website
想下一些LSF的文檔,windows下的離線瀏覽有teleport等軟件可以選擇,Linux下面的類似的離線瀏覽的軟件就更多了。
本來想看看能不能用curl來實現整個網站下載,後來發現curl沒有網站下載這個功能。Linux下面除了curl外另一個強大的軟件就是wget。
發現wget果然強大,有網站下載這個功能,而且還可以控制網站下載的方式,下面就是wget進行網站下載的命令:
$ wget \ --recursive \ --no-clobber \ --page-requisites \ --html-extension \ --convert-links \ --restrict-file-names=windows \ --domains w3schools.com \ --no-parent \ http://www.w3schools.com/html/default.asp
上面的命令會下載 http://www.w3schools.com/html/default.asp 下面所有的頁面。
上面用到的wget網站下載選擇解釋:
- --recursive: 下載整個網站
- --domains w3schools.com: 不要下載指定域名之外的網頁。
- --no-parent: 僅下載html/文件夾下的網頁。
- --page-requisites: 現在網頁包括的所有內容(images, CSS and so on).
- --html-extension: 將網頁保存爲html文件。
- --convert-links: 將連接轉換爲本地連接
- --restrict-file-names=windows: 文件名保存爲windows格式。
- --no-clobber: 不要覆蓋已有文件,在下載中斷後繼續下載。