【JAVA爬了个虫系列】Part1——初识爬虫

原創

会蹦会跳Debug

2020-06-23 09:25

一、什么是爬虫

百度的定义是：网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

而我对于爬虫的定义是：通过代码抓取网页信息，然后通过特定的规则筛选出有价值的信息，然后进行偷懒的技术，譬如我朋友小明，前两天在微博上面看到一位大美女，一见钟情的他把这位美女发布在微博上的每一张图片都保存了下来，然后从吃完晚饭开始手动保存截图到睡前，保存了上千张图片，我知道这个消息后给他写个一个程序，用来自动获取图片的地址并且下载到本地存储，用的时间也就短短的几分钟，效率比小明快得太多了，而且我还不用守着电脑去操作。这就是我定义的爬虫——一种用来偷懒的技术。

未完待续。。。。。。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

抓取网页保存时候的乱码解决

直接使用FileWriter無法指定編碼方式，OutputStream可以指定 public class transCode { // 把JSOUP

2020-06-19 03:05:53

利用Jsoup爬取一组图片

2020-02-26 00:10:54

phantomjs实例爬取AJAX页面

2020-02-26 00:10:54

java如何保存网页上的图片

2020-02-26 00:10:54

WebCollector多代理切换机制

2020-02-22 20:09:50

Java爬虫实战第四篇：手机安装证书

以iPhone8PLUS爲例 1、在第二篇的基礎上，我麼手機瀏覽器訪問：192.168.0.23:8888;跳轉到 Fiddler Echo Service 證書下載頁。 2、點擊FiddlerRoot certificate下載並安裝

小达哥的垃圾桶

2020-07-08 04:58:39

Java爬虫实战第三篇：HttpClient之post发送Request Payload请求解决方案

1、將參數複製成JSON格式的字符串例如： String a = "{\"filter\":{\"filtertype\":{\"type\":\"group\",\"group\":{\"groupvalue\":\"/\",\"e

小达哥的垃圾桶

2020-07-08 04:58:39

[java爬虫] [填坑ing] 爬虫解析数据方法

先說一下關於篩選我用的比較多的是String的查找下標以及根據下標進行截取來達到把數據從源碼中剝離出來當然這種方法也不是很完善的我們慢慢說話不多說直接乾貨篩選方法 String數據解析 String方法實例

2020-07-06 06:03:07

[完整爬虫]java爬虫基础对36Kr快讯数据进行爬取以及数据筛选过滤

由於九月事件把爬蟲推到風口浪尖而我寫這些只是分享技術不涉及隱私等個人資料的獲取並且是在不會對對方服務器造成壓力的情況下進行的爬取特此聲明 36Kr 也叫36氪,是一個我非常喜歡的網站,網羅天下資訊,而且頁面整潔資訊一目瞭

2020-07-06 06:03:07

java网络爬虫学习记录（二）抓包分析

一、網絡抓包工具介紹和選擇 1.1 按面向的對象分類瀏覽器抓包工具和全局抓包工具瀏覽器抓包工具： IE Developer（自帶） Chrome Developer(自帶）

2020-07-03 06:43:50

简单java的爬虫逻辑

剛開始先從最簡單的爬蟲邏輯入手爬蟲最簡單的解析面真的是這樣 1 import org.jsoup.Jsoup; 2 import org.jsoup.nodes.Document; 3 import java.io.IOExcepti

2020-07-03 06:01:13

利用HttpClient的工具类爬取直销银行的理财产品

http://blog.csdn.net/rocksteadypro/article/details/79087702 package app.spider; import java.io.IOException; imp

2020-06-29 03:39:40

java是由Jsoup实现网络爬虫（爬取豆瓣书评top25）的书籍数据

這是主要對Jsoup 的方法熟悉，Jsoup 學習推薦下面就是爬取數據的有關代碼： String link = null; // 書的鏈接 String title = null; // 書的名稱

2020-06-23 10:53:42

编写自定义注解

1、自定義註解的語法自定義註解的格式：public @interface test{} 使用關鍵字是inteface 並在前面加上一個@ ，註解的類還可以定義自己的成員變量。格式是要以無參無異常的方式聲明。成員的類型除了原始

2020-06-23 10:53:42

Webmagic控制爬取深度

最近搞畢業設計，使用到了webmagic，但是纔開始學習，對各個組件都還不是很熟悉。相信初學者都會遇到一個問題，那就是：必須要讓所有URL都處理完，才能結束整個爬蟲過程嗎？當然，動動腦筋就知道當然不用，但是作爲新手還是不知道怎麼去控

2020-06-23 04:41:06

24小時熱門文章

最新文章

最新評論文章