Java實現-------網絡蜘蛛

閒來無事，學習了一下網絡蜘蛛的簡易原理。是最簡單的一種，一般新手都可以看得懂哦~~讀者可以將其進行擴展，可以實現用來抓取網頁js或者css等等哦。。。

package com.insist.entity;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import java.util.Set;

/**
 * 網絡蜘蛛類
 * @author SNOOPY
 */
public class Spider {
	/**
	 * 
	 * @param srcLink  要獲取網頁源碼的路徑
	 * @param encoding	編碼格式
	 * @return
	 */
	public static String getPageHtmlSource(String srcLink){
		//List<String> list = new ArrayList<String>();
		InputStream inputStream = null;
		InputStreamReader inputStreamReader =null;
		BufferedReader bufferedReader = null;
		StringBuilder strBuilder = null;
		String htmlcode = null;
		try {
			//1、建立與網頁服務器連接
			URL url = new URL(srcLink);
			URLConnection urlconnection =url.openConnection();//打開鏈接
			//urlconnection.setRequestProperty("User-Agent", "java");
			
			String encoding = getHtmlEncoding(srcLink,url);
System.out.println("encoding====="+encoding);			
			//2、通過該連接，讀取數據(獲取輸入流)
			inputStream = urlconnection.getInputStream();//得到字節輸入流
			inputStreamReader = new InputStreamReader(inputStream,encoding);//轉爲字符流
			
			bufferedReader = new BufferedReader(inputStreamReader);//構建緩衝輸入流
			strBuilder = new StringBuilder();//非線程安全，多線程同時訪問時會有問題    但效率高  StringBuffer 線程安全

			String line = null;//存儲一行數據
			while((line=bufferedReader.readLine())!=null){
				strBuilder.append(line+"\r\n");//回車換行區別 回車： 回到同一行的起始位置，換行：換到下一行
			}
			htmlcode = strBuilder.toString();
			
		} catch (MalformedURLException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}finally{
			try {
				bufferedReader.close();
				inputStreamReader.close();
				inputStream.close();
			} catch (IOException e) {
				e.printStackTrace();
			}
		}
		return htmlcode;
	}
	public static String getHtmlEncoding(String url,URL Url){
		/**
		 * 根據頭部獲取encoding
		 */
		String encoding = null;
		try {
			HttpURLConnection huc = (HttpURLConnection)Url.openConnection();
			huc.connect();
			Map<String,List<String>> map = huc.getHeaderFields();
			Set<String> keys = map.keySet();
			Iterator<String> it = keys.iterator();
			String key = null;  
	        String tmp = null;  
	        while (it.hasNext()) {  
	            key = it.next();  
	            tmp = map.get(key).toString().toLowerCase();  
	            // 獲取content-type charset  
	            if (key != null && key.equals("Content-Type")) {
	                int m = tmp.indexOf("charset=");//返回指定子字符串在此字符串中第一次出現處的索引。
	                if (m != -1) {  
	                    encoding = tmp.substring(m + 8).replace("]", "");  
	                    return encoding;  
	                }  
	            }  
	        }
		} catch (MalformedURLException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}
		return encoding;
	}
	public static void main(String[] args) {
		/**
		 * 測試方法
		 * 最好用瀏覽器進行測試，控制檯測試也可以，但是可能因爲網頁字符集和控制檯字符集不匹配造成不能顯示漢子
		 */
		String srcURL ="http://www.qq.com";
		String html = getPageHtmlSource(srcURL);
		System.out.println(html);
	}
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Java實現-------網絡蜘蛛

Sublime Text 全程指南

url、href、src 詳解

消除文法中一切左遞歸算法

教你如何迅速秒殺掉：99%的海量數據處理面試題

Java實現-------網絡蜘蛛

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結