java是由Jsoup实现网络爬虫（爬取豆瓣书评top25）的书籍数据

原創

2020-06-23 10:53

这是主要对Jsoup 的方法熟悉，Jsoup 学习推荐
下面就是爬取数据的有关代码：

String link = null;   // 书的链接
        String title = null;  // 书的名称
        String score = null;  // 书的评分
        String num = null ;   // 获取评价人数
        Document content = Jsoup.connect("https://book.douban.com/top250").get();
        //Elements pl2 = content.getElementsByClass("item");
        Elements pl2 = content.select(".item");
        int i=1;
        for (Element element:pl2){
            Element links = element.getElementsByTag("a").first();
            Element putureUrl = element.getElementsByTag("img").get(0);
            Element star = element.getElementsByClass("star clearfix").get(0);
            Element pl21 = element.getElementsByClass("pl2").get(0);
            Element controller = element.getElementsByClass("quote").get(0);
            link = links.attr("href");        // 获取电影的链接
            String url = putureUrl.attr("src");
            title = pl21.child(0).html();    // 获取电影名称
            String content1 = controller.child(0).html();  //简介
            score = star.child(1).html();     // 获取电影评分
            num = star.child(2).html();       // 获取评价人数
            System.out.println(i+++"\t"+link +"\t图片地址："+ url+"\t" + title + "\t评分" + score + "\t" + num+"\t"+content1);

        }

运行的结果如下：`

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

[java爬虫] [填坑ing] 爬虫解析数据方法

先說一下關於篩選我用的比較多的是String的查找下標以及根據下標進行截取來達到把數據從源碼中剝離出來當然這種方法也不是很完善的我們慢慢說話不多說直接乾貨篩選方法 String數據解析 String方法實例

2020-07-06 06:03:07

[完整爬虫]java爬虫基础对36Kr快讯数据进行爬取以及数据筛选过滤

由於九月事件把爬蟲推到風口浪尖而我寫這些只是分享技術不涉及隱私等個人資料的獲取並且是在不會對對方服務器造成壓力的情況下進行的爬取特此聲明 36Kr 也叫36氪,是一個我非常喜歡的網站,網羅天下資訊,而且頁面整潔資訊一目瞭

2020-07-06 06:03:07

java网络爬虫学习记录（二）抓包分析

一、網絡抓包工具介紹和選擇 1.1 按面向的對象分類瀏覽器抓包工具和全局抓包工具瀏覽器抓包工具： IE Developer（自帶） Chrome Developer(自帶）

2020-07-03 06:43:50

简单java的爬虫逻辑

剛開始先從最簡單的爬蟲邏輯入手爬蟲最簡單的解析面真的是這樣 1 import org.jsoup.Jsoup; 2 import org.jsoup.nodes.Document; 3 import java.io.IOExcepti

2020-07-03 06:01:13

利用HttpClient的工具类爬取直销银行的理财产品

http://blog.csdn.net/rocksteadypro/article/details/79087702 package app.spider; import java.io.IOException; imp

2020-06-29 03:39:40

编写自定义注解

1、自定義註解的語法自定義註解的格式：public @interface test{} 使用關鍵字是inteface 並在前面加上一個@ ，註解的類還可以定義自己的成員變量。格式是要以無參無異常的方式聲明。成員的類型除了原始

2020-06-23 10:53:42

Java模拟登陆，将文件中的单词自动添加到扇贝生词本

package autoAdd2扇貝; import java.io.BufferedReader; import java.io.FileReader; import java.io.IOException; import java

我的格子衬衫呢？

2020-06-22 20:58:55

爬取酷狗音乐时的坑

今天在用java爬取酷狗音樂時碰到了兩個坑，浪費了我不少時間，嗚嗚嗚。通過拼接hash值獲取歌曲真實接口地址後，遇到了以下兩個錯誤，開始還以爲是https的問題，搞了半天並不是 1、{“status”:0,“err_code”:

2020-06-21 16:48:26

通过java爬虫爬取CSDN和OSC博客

1.根據CSDN文章類型獲取對應類型的文章鏈接 public void searchCsdnUrl() throws IOException { // String[] Arr = {"ai","cloud", "db",

2020-06-21 11:55:58

通过java(jsoup技术)爬取博客信息？别闹

程序猿學社的GitHub，歡迎Star github技術專題本文已記錄到github 文章目錄前言需求要求api接口文檔查找元素獲取元素的值實戰pom.xml代碼分析第一步第二步獲取文章列表的ul第三步獲取文章的每個li

程序猿学社

2020-06-21 03:29:57

百度地图街景图片爬取

1 需求抓取整個杭州市的百度/騰訊街景地圖及其時光機功能（實時圖片和歷史圖片），進行圖像分析。 2 分析百度地圖街景模式下，點擊向前可發現，街景圖片是異步加載的，我們可以打開百度地圖的街景模式，f1

2020-06-20 14:47:52

MIT Place Pulse数据集及google街景图片爬取

1、項目背景 1.1 使用谷歌街景圖片的必要性 MIT Place Pulse 數據集可直接下載，但沒有提供街景圖片本身，只提供了街景的座標，需通過谷歌街景開放API 獲取對應的街景圖片。 MIT Place Pulse數據集中

2020-06-20 14:47:52

手写一个Java爬虫

手寫一個Java爬蟲 1: 網絡爬蟲是做什麼的? 他的主要工作就是跟據指定的url地址去發送請求,獲得響應, 然後解析響應 , 一方面從響應中查找出想要查找的數據,另一方面從響應中解析出新的URL路徑, 然後繼續訪問,繼續解

2020-06-16 06:11:15

POI对Excel文档的读写

POI 概述 Apache POI是Apache軟件基金會的開放源碼函式庫，POI提供API給Java程序對Microsoft Office格式檔案讀和寫的功能。 HSSF －提供讀寫Microsoft Excel格式檔案的功

2020-06-07 07:40:16

基于webmagic框架的多主题爬虫关键词切换

2020-06-01 08:36:58

24小時熱門文章

最新文章

最新評論文章