java五行代碼爬到文章列表

原創

2020-06-29 21:41

是門語言就能做爬蟲，早期寫爬蟲的時候就用最簡單的腳本語言TC，直接使用系統底層組件，速度上快，但是大部分普通爬蟲可能對快沒有什麼概念。所以無所謂快不快，但是系統底層組件來抓數據，就需要自己用正則去解析document。
1、關於文檔解析，java中有直接給你封裝了html文檔解析的包jsoup，jsoup使用起來也很簡單。它使得你能像jquery操作document那樣操作請求回來的html。
2、關於http請求可以使用hutool工具包，hutool 你可以做簡單的擴展將cookie保存到redis或者文件中，這樣即使你對象銷燬了，後面在創建還可以繼續保留之前的狀態，就像一個真正的瀏覽器。
maven 項目中引入如下依賴既可以使用這兩個方便快捷的包。再也不用去寫各種各樣的正則了。

<dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.13.1</version>
        </dependency>

 <dependency>
            <groupId>cn.hutool</groupId>
            <artifactId>hutool-all</artifactId>
            <version>5.3.2</version>
        </dependency>

public static void csdnCrawler(){
        //請求個人主頁
        HttpResponse response = HttpUtil.createGet("https://blog.csdn.net/a807719447").execute();
        //將請求回來的html轉成文檔
        Document document = Jsoup.parse(response.body());
        //文檔的操作。。。。
        Elements elements = document.getElementsByClass("article-item-box csdn-tracking-statistics");
        for (Element element : elements) {
            System.out.println(element.children().get(0).children().get(0).text());
        }

    }

對就是這麼簡單。以上腳本就能拿到我的文章列表。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

哈哈哈哈或

在Java編程中，簡潔高效的實現往往涉及幾個關鍵原則和技能。例如，使用簡單的代碼結構來提高代碼訪問性和可維護性，這意味着代碼應該追求清晰、簡潔且模式匿名，因爲過度模式匿名會導致複雜度增長，影響代碼的維護性和效率。其中，簡潔高效還包攜

2024-04-28 00:40:41

Java編程工具：簡潔高效實現

Java編程工具：簡潔高效實現Java編程工具：簡潔高效實現Java編程工具：簡潔高效實現

2024-04-27 00:41:09

Java word通過html設置樣式（Spire Docx）

Java word通過html設置樣式（Spire Docx） <dependencies>  <dependency>

2024-04-26 23:42:09

從零開始學架構V2-初識架構設計-1

一、架構設計的主要目的爲了解決軟件系統複雜度帶來的問題二、複雜性來源軟件的架構設計是一個非常複雜的過程；基於業務&技術現狀、公司成本、團隊規模、團隊技術能力、近三年業務發展規模預測、技術發展趨勢等條件篩選出合適的技術、編寫多種架構設計

2024-04-25 23:56:25

高德地圖爬蟲實踐：Java多線程併發處理策略

背景介紹高德地圖是一款基於互聯網和移動互聯網的地圖與導航應用，提供了包括地圖瀏覽、公交查詢、駕車導航、步行導航等在內的多種功能。其龐大的用戶羣體和豐富的地圖數據成爲了各行各業進行位置服務、地理信息分析等應用的首選。爬蟲實踐需求在

2024-04-25 23:26:44

三十分鐘入門基礎Go（Java小子版）

前言 Go語言定義 Go（又稱 Golang）是 Google 的 Robert Griesemer，Rob Pike 及 Ken Thompson 開發的一種靜態、強類型、編譯型語言。Go 語言語法與 C 相近，但功能上有：內存安

2024-04-25 23:17:43

流水線運行出錯排查難？AI 來幫你

“我的企業有幾千條流水線，每次流水線運行出錯，都要投入不少的技術人員進去排查，需要花費不少的時間。” 遇到這種情況，怎麼解決。在 AI 爆火的今天，AI 如何助力 DevOps 效率提升？雲效與阿里雲通義大模型合作，推出了流水線智能排查能

2024-04-24 21:12:07

西安站開營！AI 編碼助手通義靈碼幫大學生“整活兒”

如何更好地與 AI 爲伴，做時代的先進開發者？4 月 17 日，阿里雲推出的 AI 編程助手通義靈碼與雲工開物“高校訓練營”走進西安多所高校開啓實操培訓，結合 AI 輔助編程的發展背景、通義靈碼的具體能力和應用實操，幫助在校大學生了解人工智

2024-04-24 21:12:06

「Java開發指南」如何利用MyEclipse啓用Spring DSL？（二）

本教程將引導您通過啓用Spring DSL和使用Service Spring DSL抽象來引導Spring和Spring代碼生成項目，本教程中學習的技能也可以很容易地應用於其他抽象。在本教程中，您將學習如何：爲Spring DSL初始化

2024-04-24 11:35:31

Java中的複製

在Java中將一個對象的引用複製給另外一個對象，一共有三種方式：直接賦值，淺拷貝，深拷貝。這三種方式實際上都是拷貝對象。直接賦值複製直接賦值：如 A a1 = a2，我們需要理解的是這實際上覆制的是引用，也就是說 a1 和 a2 指

2024-04-23 23:33:35

利用HttpClient庫下載螞蜂窩圖片

前言網絡爬蟲技術作爲互聯網數據獲取的重要工具，在各行各業都有着廣泛的應用。而在本文中，我們將利用Java中的HttpClient庫，通過編寫一個簡單而有效的網絡爬蟲程序，實現下載螞蜂窩網站的圖片的功能。通過這個例子，我們不僅可以學習如

2024-04-23 23:24:51

MySQL死鎖排查，原來我一直沒懂。。。

喜大普奔，微信給我的公衆號開了留言功能！！！有緣看到這篇文章的朋友，可以留個言互動下，謝謝～最近線上偶發MySQL的死鎖異常，發現原來很多理論都只背了個結論，細節都是魔鬼。比如，MySQL在RR級別用gap lock防止幻讀，

2024-04-23 23:10:58

一次Redis訪問超時的“捉蟲”之旅

01 引言作爲後端開發人員，對Redis肯定不陌生，它是一款基於內存的數據庫，讀寫速度非常快。在愛奇藝海外後端的項目中，我們也廣泛使用Redis，主要用於緩存、消

2024-04-23 13:04:36

日誌架構演進：從集中式到分佈式的Kubernetes日誌策略

當我們沒有使用雲原生方案部署應用時採用的日誌方案往往是 ELK 技術棧。這套技術方案比較成熟，穩定性也很高，所以幾乎成爲了當時的標配。可是隨着我們使用 kubernetes 步入雲原生的時代後， kubernetes 把以往的操作系統

2024-04-23 11:47:10

Java中List、Set、Map的區別

結構特點 List 和 Set 是存儲單列數據的集合，Map 是存儲鍵和值這樣的雙列數據的集合；List 中存儲的數據是有順序，並且允許重複；Map 中存儲的數據是沒有順序的，其鍵是不能重複的，它的值是可以有重複的，Set 中存儲的數據

2024-04-22 21:31:29

24小時熱門文章

最新文章

最新評論文章