htmlpaser打造個性化的爬蟲程序第一天

原創

2020-02-21 10:46

htmlpaser打造個性化的爬蟲程序第一天

/**
	 * A method to get all the Links that follow the given pattern in the page . 
	 * @param url
	 * @param pattern
	 * @return Links list
	 * @author hym
	 * 
	 */
	public List extractUrls(String url,String pattern)
	{
		List list = new ArrayList();
		System.out.println("extractURL method here!");
		try{
		Parser parser = new Parser();
		parser.setURL(url);
		NodeFilter filter = new LinkStringFilter(pattern,true);
		NodeList nlist=parser.extractAllNodesThatMatch(filter);
		for(int i = 0 ; i <nlist.size(); i++)
		{
			Node n = nlist.elementAt(i);
		      if (n instanceof LinkTag) {
		    	  LinkTag  link = (LinkTag)n;
		    	  //System.out.println(link.getLink());  
		    	  list.add(link.getLink());
		       }	
		}
		}catch(ParserException e)
		{
			e.printStackTrace();
		}
		return list;
	}

發佈了36 篇原創文章 · 獲贊 5 · 訪問量 9萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Spring Security 如何防止點擊劫持

在當今複雜的網絡環境中，安全成爲了每一個應用程序不可或缺的一部分。點擊劫持（Clickjacking）作爲一種隱蔽的網絡攻擊手段，對用戶的信息安全構成了嚴重威脅。本文將深入探討點擊劫持的基本概念、其工作原理，並詳細介紹在 Spring Se

2024-06-15 01:13:42

技術解密Java Chassis 3超實用的可觀測性

本文分享自華爲雲社區《Java Chassis 3技術解密：實用的可觀測性》，作者：liubao68。狹義的可觀測性，指日誌、調用鏈和指標，廣義的可觀測性則包含更多的內容，一般的，應用程序暴露出來的便於理解其運行狀態、運行軌跡、內部結構和

2024-06-14 22:58:27

詳解Spring Boot的RedisAutoConfiguration配置

本文分享自華爲雲社區《【Spring Boot 源碼學習】RedisAutoConfiguration 詳解》，作者： Huazie。引言帶大家分析 Spring Boot 內置的有關 Redis 的自動配置類【RedisAutoCo

2024-06-14 22:58:25

OpenTelemetry 實踐指南：歷史、架構與基本概念

背景之前陸續寫過一些和 OpenTelemetry 相關的文章：實戰：如何優雅的從 Skywalking 切換到 OpenTelemetry 實戰：如何編寫一個 OpenTelemetry Extensions 從一個 JDK21+O

2024-06-14 12:33:40

進程還在，JSF接口不幹活了，這你敢信？

1、問題背景：應用在配合R2m升級redis版本的過程中，上游反饋調用接口報錯，RpcException：[Biz thread pool of provider has been exhausted]，通過監控系統和日誌系統定位到現象

2024-06-14 11:54:16

Scala網絡編程：代理設置與Curl庫應用實例

在網絡編程的世界裏，Scala以其強大的併發模型和函數式編程特性，成爲了開發者的得力助手。然而，網絡請求往往需要通過代理服務器進行，以滿足企業安全策略或訪問控制的需求。本文將深入探討如何在Scala中使用Curl庫進行網絡編程，包括設置代

2024-06-14 00:06:31

動態線程池思想學習及實踐

相關文檔美團線程池實踐： https://tech.meituan.com/2020/04/02/java-pooling-pratice-in-meituan.html 線程池思想解析： https://www.javadoop.

2024-06-13 23:54:49

JeecgBoot 企業級開源低代碼平臺，v3.7.0 里程碑大版本發佈

項目介紹 JeecgBoot是一款企業級的低代碼平臺！前後端分離架構 SpringBoot2.x，SpringCloud，Ant Design&Vue3，Mybatis-plus，Shiro，JWT 支持微服務。強大的代碼生成器讓前後端代

2024-06-13 13:12:19

Java生成PDF文件，並將PDF轉爲圖片

引入依賴 <dependency> <groupId>com.itextpdf</groupId> <artifactId>itextpdf</artifactId>

2024-06-12 23:21:32

SonarQube代碼質量檢測線上配置指南

SonarQube 是一個開源的代碼質量管理平臺，用於自動審查代碼，檢測潛在的錯誤、漏洞和不良實踐，以提高軟件質量。本文檔旨在指導您完成SonarQube在生產環境中的配置，確保您的項目代碼得到持續且有效的質量監控。 1. 環境準備 1.1

2024-06-12 01:12:57

雲原生週刊：Kubernetes 十週年｜ 2024.6.11

開源項目推薦 Kubernetes Goat Kubernetes Goat 是一個故意設計成有漏洞的 Kubernetes 集羣環境，旨在通過交互式實踐場地來學習並練習 Kubernetes 安全性。 kube-state-metrics

2024-06-11 23:16:00

「Java開發指南」如何使用Spring註釋器實現Spring控制器？（一）

本教程將引導您使用Spring Annotator實現Spring控制器，標準Java類被添加到搭建項目中，Spring Annotator Spring啓用Java類。雖然本教程的重點是Spring控制器，但是Spring Annota

2024-06-11 12:18:10

奇怪！應用的日誌呢？？

1. 問題回顧問題背景是在進行中臺應用中間件遷移過程中，發現存在項目啓動失敗或者項目正常啓動（jsf正常掛載並正常運行，mq正常發送和消費）但是無任何日誌打印現象。更奇怪的是不打印日誌竟然是偶發的，在測試環境中多次部

2024-06-11 11:55:14

華爲雲短信服務教你用C++實現Smgp協議

本文分享自華爲雲社區《華爲雲短信服務教你用C++實現Smgp協議》，作者：張儉。引言&協議概述中國聯合網絡通信有限公司短消息網關係統接口協議（SGIP）是中國網通爲實現短信業務而制定的一種通信協議，全稱叫做Short Message

2024-06-11 10:57:30

redis的key亂碼問題和值自增問題

背景今天在使用redis做分佈式緩存提供自增id的時候,發現了�� t Goods_key_37的亂碼問題;因爲存的是Long,然後我就自定義了一個RedisTemplate<string,long>的實例來使用解決過程 1.剛開始說

2024-06-14 10:11:25

24小時熱門文章

物理機開關機

最新文章

最新評論文章