閒來無事,學習了一下網絡蜘蛛的簡易原理。是最簡單的一種,一般新手都可以看得懂哦~~讀者可以將其進行擴展,可以實現用來抓取網頁js或者css等等哦。。。
package com.insist.entity;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import java.util.Set;
/**
* 網絡蜘蛛類
* @author SNOOPY
*/
public class Spider {
/**
*
* @param srcLink 要獲取網頁源碼的路徑
* @param encoding 編碼格式
* @return
*/
public static String getPageHtmlSource(String srcLink){
//List<String> list = new ArrayList<String>();
InputStream inputStream = null;
InputStreamReader inputStreamReader =null;
BufferedReader bufferedReader = null;
StringBuilder strBuilder = null;
String htmlcode = null;
try {
//1、建立與網頁服務器連接
URL url = new URL(srcLink);
URLConnection urlconnection =url.openConnection();//打開鏈接
//urlconnection.setRequestProperty("User-Agent", "java");
String encoding = getHtmlEncoding(srcLink,url);
System.out.println("encoding====="+encoding);
//2、通過該連接,讀取數據(獲取輸入流)
inputStream = urlconnection.getInputStream();//得到字節輸入流
inputStreamReader = new InputStreamReader(inputStream,encoding);//轉爲字符流
bufferedReader = new BufferedReader(inputStreamReader);//構建緩衝輸入流
strBuilder = new StringBuilder();//非線程安全,多線程同時訪問時會有問題 但效率高 StringBuffer 線程安全
String line = null;//存儲一行數據
while((line=bufferedReader.readLine())!=null){
strBuilder.append(line+"\r\n");//回車換行區別 回車: 回到同一行的起始位置,換行:換到下一行
}
htmlcode = strBuilder.toString();
} catch (MalformedURLException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}finally{
try {
bufferedReader.close();
inputStreamReader.close();
inputStream.close();
} catch (IOException e) {
e.printStackTrace();
}
}
return htmlcode;
}
public static String getHtmlEncoding(String url,URL Url){
/**
* 根據頭部獲取encoding
*/
String encoding = null;
try {
HttpURLConnection huc = (HttpURLConnection)Url.openConnection();
huc.connect();
Map<String,List<String>> map = huc.getHeaderFields();
Set<String> keys = map.keySet();
Iterator<String> it = keys.iterator();
String key = null;
String tmp = null;
while (it.hasNext()) {
key = it.next();
tmp = map.get(key).toString().toLowerCase();
// 獲取content-type charset
if (key != null && key.equals("Content-Type")) {
int m = tmp.indexOf("charset=");//返回指定子字符串在此字符串中第一次出現處的索引。
if (m != -1) {
encoding = tmp.substring(m + 8).replace("]", "");
return encoding;
}
}
}
} catch (MalformedURLException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
return encoding;
}
public static void main(String[] args) {
/**
* 測試方法
* 最好用瀏覽器進行測試,控制檯測試也可以,但是可能因爲網頁字符集和控制檯字符集不匹配造成不能顯示漢子
*/
String srcURL ="http://www.qq.com";
String html = getPageHtmlSource(srcURL);
System.out.println(html);
}
}