java抓取起點小說，並用正則匹配需要數據

原創

2020-07-07 02:03

抓取起點網站內容

static String gethtml(String ul) {
		String url = ul;
		InputStream is = null;
		InputStreamReader isr = null;
		try {
			URL u = new URL(url);
			HttpURLConnection uc = (HttpURLConnection) u.openConnection();
			//設置header 
			uc.setRequestMethod("GET");
			uc.setRequestProperty("User-Agent",
					"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3895.5 Safari/537.36");
			uc.setRequestProperty("Accept-Language", "zh-CN,zh;q=0.9");
//			uc.setRequestProperty("Accept-Encoding", "gzip, deflate");
			uc.setRequestProperty("Accept",
					"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3");
			uc.setRequestProperty("Connection", "keep-alive");
			uc.connect();
			is = uc.getInputStream();
			isr = new InputStreamReader(is);
			StringBuffer sb = new StringBuffer("");
			char[] buff = new char[1024];
			int len = -1;
			while ((len = isr.read(buff)) != -1) {
				sb.append(buff, 0, len);
			}
			String s = new String(sb.toString().getBytes(), "UTF-8");
			return s;
		} catch (MalformedURLException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		} finally {
			try {
				isr.close();
				is.close();
			} catch (IOException e) {
				e.printStackTrace();
			}

		}
		return "";
	}

正則匹配書名及鏈接

		String url = "https://www.qidian.com/rank/yuepiao";
		String str = gethtml(url);
		String preg = "<h4><a href=\"(.+?)\".*?>(.*?)</a>";
		Pattern p = Pattern.compile(preg);
		Matcher m = p.matcher(str);
		while (m.find()) {
			System.out.println("https:"+m.group(1)+"::"+m.group(2));
		}

結果

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Spring Security 如何防止點擊劫持

在當今複雜的網絡環境中，安全成爲了每一個應用程序不可或缺的一部分。點擊劫持（Clickjacking）作爲一種隱蔽的網絡攻擊手段，對用戶的信息安全構成了嚴重威脅。本文將深入探討點擊劫持的基本概念、其工作原理，並詳細介紹在 Spring Se

2024-06-15 01:13:42

技術解密Java Chassis 3超實用的可觀測性

本文分享自華爲雲社區《Java Chassis 3技術解密：實用的可觀測性》，作者：liubao68。狹義的可觀測性，指日誌、調用鏈和指標，廣義的可觀測性則包含更多的內容，一般的，應用程序暴露出來的便於理解其運行狀態、運行軌跡、內部結構和

2024-06-14 22:58:27

詳解Spring Boot的RedisAutoConfiguration配置

本文分享自華爲雲社區《【Spring Boot 源碼學習】RedisAutoConfiguration 詳解》，作者： Huazie。引言帶大家分析 Spring Boot 內置的有關 Redis 的自動配置類【RedisAutoCo

2024-06-14 22:58:25

OpenTelemetry 實踐指南：歷史、架構與基本概念

背景之前陸續寫過一些和 OpenTelemetry 相關的文章：實戰：如何優雅的從 Skywalking 切換到 OpenTelemetry 實戰：如何編寫一個 OpenTelemetry Extensions 從一個 JDK21+O

2024-06-14 12:33:40

進程還在，JSF接口不幹活了，這你敢信？

1、問題背景：應用在配合R2m升級redis版本的過程中，上游反饋調用接口報錯，RpcException：[Biz thread pool of provider has been exhausted]，通過監控系統和日誌系統定位到現象

2024-06-14 11:54:16

Scala網絡編程：代理設置與Curl庫應用實例

在網絡編程的世界裏，Scala以其強大的併發模型和函數式編程特性，成爲了開發者的得力助手。然而，網絡請求往往需要通過代理服務器進行，以滿足企業安全策略或訪問控制的需求。本文將深入探討如何在Scala中使用Curl庫進行網絡編程，包括設置代

2024-06-14 00:06:31

動態線程池思想學習及實踐

相關文檔美團線程池實踐： https://tech.meituan.com/2020/04/02/java-pooling-pratice-in-meituan.html 線程池思想解析： https://www.javadoop.

2024-06-13 23:54:49

JeecgBoot 企業級開源低代碼平臺，v3.7.0 里程碑大版本發佈

項目介紹 JeecgBoot是一款企業級的低代碼平臺！前後端分離架構 SpringBoot2.x，SpringCloud，Ant Design&Vue3，Mybatis-plus，Shiro，JWT 支持微服務。強大的代碼生成器讓前後端代

2024-06-13 13:12:19

Java生成PDF文件，並將PDF轉爲圖片

引入依賴 <dependency> <groupId>com.itextpdf</groupId> <artifactId>itextpdf</artifactId>

2024-06-12 23:21:32

SonarQube代碼質量檢測線上配置指南

SonarQube 是一個開源的代碼質量管理平臺，用於自動審查代碼，檢測潛在的錯誤、漏洞和不良實踐，以提高軟件質量。本文檔旨在指導您完成SonarQube在生產環境中的配置，確保您的項目代碼得到持續且有效的質量監控。 1. 環境準備 1.1

2024-06-12 01:12:57

雲原生週刊：Kubernetes 十週年｜ 2024.6.11

開源項目推薦 Kubernetes Goat Kubernetes Goat 是一個故意設計成有漏洞的 Kubernetes 集羣環境，旨在通過交互式實踐場地來學習並練習 Kubernetes 安全性。 kube-state-metrics

2024-06-11 23:16:00

「Java開發指南」如何使用Spring註釋器實現Spring控制器？（一）

本教程將引導您使用Spring Annotator實現Spring控制器，標準Java類被添加到搭建項目中，Spring Annotator Spring啓用Java類。雖然本教程的重點是Spring控制器，但是Spring Annota

2024-06-11 12:18:10

奇怪！應用的日誌呢？？

1. 問題回顧問題背景是在進行中臺應用中間件遷移過程中，發現存在項目啓動失敗或者項目正常啓動（jsf正常掛載並正常運行，mq正常發送和消費）但是無任何日誌打印現象。更奇怪的是不打印日誌竟然是偶發的，在測試環境中多次部

2024-06-11 11:55:14

華爲雲短信服務教你用C++實現Smgp協議

本文分享自華爲雲社區《華爲雲短信服務教你用C++實現Smgp協議》，作者：張儉。引言&協議概述中國聯合網絡通信有限公司短消息網關係統接口協議（SGIP）是中國網通爲實現短信業務而制定的一種通信協議，全稱叫做Short Message

2024-06-11 10:57:30

從缺陷到創新：質量保障的新視角

1.背景：最近一段時間研發大佬們在積極的治理告警，經過一段時間的治理，現在告警情況已經有了很大的改觀，但難免還有漏網之魚；具體我們可以以下邊一個例子來看：這是一個生產的UMP告警，通過這個告警我們發現XXX這個應用的堆內存使用率

2024-06-07 23:55:01

24小時熱門文章

最新文章

最新評論文章