Java實現抽取網頁信息

原創

2018-09-04 15:40

使用正則表達式及字符串操作，抽取網頁信息，實現代碼如下：

/* 去script */
public static String trimScript(String content) {
String regEx = "<script[^>]*>[^<]+</script>";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
return result;
}
/* 去除註釋*/
public static String trimComment(String content) {
String regEx = "";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
return result;
}

/* 去除標籤 */
public static String trimTag(String content) {
String regEx = "<[^>]+>";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
result = result.replace(" ", "").replace(">", "").replace(
">", "");
return result;
}

/* 根據起始位置和結束位置，截取字符串 */
public static String subString(String start, String end, String content) {
int iStart = content.indexOf(start);
int iEnd = content.indexOf(end);
if (iStart < iEnd) {
return content.substring(iStart, iEnd);
}
return null;
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

NYOJ Gone Fishing 貪心策略

Gone Fishing 時間限制：3000 ms | 內存限制：65535 KB 難度：5 描述 John is going on a fishing trip. He has h hours available (

小黄人的banana

2020-07-04 21:59:43

HDU　1236 排名 Java實現

排名 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total Submission(s): 20727 A

小黄人的banana

2020-07-04 21:59:43

JAVA去掉一個已經排好序的數組的重複數字，儘量快

import java.util.Arrays; /** * JAVA去掉一個已經排好序的數組的重複數字，儘量快. * * @author 老紫竹 JAVA世紀網(java2000.net) * */ public cla

2020-07-04 00:23:01

劍指Offer_二維數組中的查找_01

題目描述在一個二維數組中，每一行都按照從左到右遞增的順序排序，每一列都按照從上到下遞增的順序排序。請完成一個函數，輸入這樣的一個二維數組和一個整數，判斷數組中是否含有該整數。public class Offer01 { public

2020-07-03 03:50:31

java排序算法之堆排序

在博客http://blog.csdn.net/haizi8888/article/details/21414635中，已經分析了二叉堆進行了比較全面的分析；所謂的堆排序，就是對N個數存儲爲最大（小）堆的形式

2020-07-03 01:45:01

優先級隊列(java.util.PriorityQueue)

實現方式的選擇？ 1，用鏈表實現，插入數據以常數時間，但是訪問最小（大）項要對鏈表進行線性掃描。若保持鏈表的有序性，訪問訪問最小（大）項以常數時間，但是插入確實線性時間。 2，用二叉堆實現，具有這些優點（1）通過簡單的數組實現，（

2020-07-03 00:47:17

自己的寫簡單的二叉樹java

public class twoTree { private static Node root; public class Node{ private int data; private Node left; private N

2020-06-20 10:49:03

找素數素數就是不能再進行等分的整數。比如：7，11。而9不是素數，因爲它可以平分爲3等份。

/* 找素數 * 素數就是不能再進行等分的整數。比如：7，11。而9不是素數，因爲它可以平分爲3等份。 * 一般認爲最小的素數是2，接着是3，5

2020-06-19 19:36:39

給出分數數組，得到對應的名次數組

package test01; /** * 給出分數數組，得到對應的名次數組 * 列如有：score = {4,2,5,4} * 則輸出：ra

2020-06-19 18:36:34

計數排序（java）筆記

package test; public class Sort { public static void countSort(int[] array) { //獲取最大值，最小值 int max=array[0],

2020-06-11 10:32:03

歸併排序（java）筆記

public class MergeArrays { //需要三個指針，頭尾各一個，以及分割這個數組的一個指針（mid） //另外需要一個臨時數組長度爲（hight-low+1） //通過指針比較，將小的存於臨時數組，再將未

2020-06-11 10:32:03

堆排序（java）筆記

/** * 先將數組排序成大頂堆（從下到上，從右至左，從第一個非葉子節點開始，數組長度減1再除以2作爲父節點， * 先將左節點與右節點比較，再將大的一個子節點與父節點比較，也就是選取最大的作爲父節點） * 將數組末尾與數組開

2020-06-11 10:32:03

快速排序（java）筆記

package test; public class QuickSort { //比較的時候感覺和二叉樹有點類似。 public static void quickCore(int[] arr, int low, int

2020-06-11 10:32:03

Java 冒泡排序和選擇排序

冒泡排序 public class Test { public static void main(String[] args) { //System.out.print("ddddddd");

2020-06-10 13:26:32

397. 最長上升連續子序列

從物理學到計算機，再到硬件，再到人工智能！藍橋杯備賽（LintCode上刷的第二題）問題描述給定一個整數數組（下標從 0 到 n-1， n 表示整個數組的規模），請找出該數組中的最長上升連續子序列。（最長上升連續子序列可以

Thatcher学计算机

2020-06-07 04:54:54

24小時熱門文章

最新文章

最新評論文章