【JAVA爬了个虫系列】Part1——初识爬虫

一、什么是爬虫       

        百度的定义是:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

        而我对于爬虫的定义是:通过代码抓取网页信息,然后通过特定的规则筛选出有价值的信息,然后进行偷懒的技术,譬如我朋友小明,前两天在微博上面看到一位大美女,一见钟情的他把这位美女发布在微博上的每一张图片都保存了下来,然后从吃完晚饭开始手动保存截图到睡前,保存了上千张图片,我知道这个消息后给他写个一个程序,用来自动获取图片的地址并且下载到本地存储,用的时间也就短短的几分钟,效率比小明快得太多了,而且我还不用守着电脑去操作。这就是我定义的爬虫——一种用来偷懒的技术。

 

未完待续。。。。。。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章