如何扒取网站数据

1. 网站小偷 teleport ultra

在平时的开发或者学习的过程中,我们难免会看到一些让人心动的网站,于是自己想把它搞下来,自己手工一个文件一个文件把它保存下来也可以实现,完成了也累得够呛,有一款扒站的神器,可以把你所喜欢的目标网站整个网站给扒下来,这个神器就是teleport ultra!

使用步骤

1、打开软件 

这里写图片描述 

点击File,然后点击 New Project Wizred…,弹出如下界面,选择第一项,点击下一步 

这里写图片描述 

然后在输入框输入你要扒的网站的地址,点击下一步 
这里写图片描述 

选择everything,点击下一步,然后点击完成 

这里写图片描述 

选择本地保存网站源文件的路径后,点击保存 

这里写图片描述 

再单击start,即开始扒网站的文件 

这里写图片描述 

搞定 

这里写图片描述


2.wget 命令获取法

    

需要下载某个目录下面的所有文件。
命令如下
wget -c -r -np -k -L -p http://docs.openstack.org/liberty/install-guide-rdo/
在下载时。有用到外部域名的图片或连接。如果需要同时下载就要用-H参数。
wget -np -nH -r –span-hosts www.xianren.org/pub/path/
-c 断点续传
-r 递归下载,下载指定网页某一目录下(包括子目录)的所有文件
-nd 递归下载时不创建一层一层的目录,把所有的文件下载到当前目录
-np 递归下载时不搜索上层目录,如wget -c -r www.xianren.org/pub/path/
没有加参数-np,就会同时下载path的上一级目录pub下的其它文件
-k 将绝对链接转为相对链接,下载整个站点后脱机浏览网页,最好加上这个参数
-L 递归时不进入其它主机,如wget -c -r www.xianren.org/
如果网站内有一个这样的链接:
www.xianren.org,不加参数-L,就会像大火烧山一样,会递归下载www.xianren.org网站
-p 下载网页所需的所有文件,如图片等
-A 指定要下载的文件样式列表,多个样式用逗号分隔
-i 后面跟一个文件,文件内指明要下载的URL


下载一个完整的网站,即当前页面所依赖的所有文件:wget --mirror -p --convert-links -P./test http://localhost
  --mirror:打开镜像选项
  -p:下载所有用于显示给定网址所必须的文件
  --convert-links:下载以后,转换链接用于本地显示
  -P LOCAL_DIR:保存所有的文件或目录到指定的目录下

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章