關於“抓網頁”的幾篇文章

網上相關文章:JAVA/JSP學習系列之十一(簡單的“抓網頁”代碼)                  

                   

從HTML中攫取你所需的信息

-------------------------------------------------------------------------------------------------------------------------

通過java.net.Socket類抓取網頁內容

原文鏈接:http://blog.csdn.net/cqq/archive/2004/09/24/115664.aspx

**
 文件名 : FirstSocket.java
 描述 :通過 java.net.Socket 類訪問一個Web頁面,並且返回結果
 作者: 慈勤強  
[email protected]
 參考:http://java.sun.com
  **/

import java.io.*;
import java.net.*;

public class FirstSocket
{
 public static void main(String args[])
 {
  
  //判斷參數是否爲兩個,正確的用法爲 FirstSocket 網站 頁面
  if(args.length!=2)
  {
   System.out.println("Usage : FirstSocket host page/r/nExample:FirstSocket
www.google.com /");
   System.exit(0);
  }
  String strServer=args[0]; //取得第一個參數
  String strPage = args[1]; //取得第二個參數

  try
  {
   String hostname = strServer;
   int port = 80;
   InetAddress addr = InetAddress.getByName(hostname);
   Socket socket = new Socket(addr, port); //建立一個Socket
   
   //發送命令
   BufferedWriter wr = new BufferedWriter(new OutputStreamWriter(socket.getOutputStream(), "UTF8"));
   wr.write("GET " + strPage + " HTTP/1.0/r/n");
   wr.write("HOST:" + strServer + "/r/n");
   wr.write("/r/n");
   wr.flush();
   
   //接收返回的結果
   BufferedReader rd = new BufferedReader(new InputStreamReader(socket.getInputStream()));
   String line;
   while ((line = rd.readLine()) != null) {
    System.out.println(line);
   }
   wr.close();
   rd.close();
  }
  catch (Exception e)
  {
   System.out.println(e.toString());
   }
 }
}

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章