关于“抓网页”的几篇文章

网上相关文章:JAVA/JSP学习系列之十一(简单的“抓网页”代码)                  

                   

从HTML中攫取你所需的信息

-------------------------------------------------------------------------------------------------------------------------

通过java.net.Socket类抓取网页内容

原文链接:http://blog.csdn.net/cqq/archive/2004/09/24/115664.aspx

**
 文件名 : FirstSocket.java
 描述 :通过 java.net.Socket 类访问一个Web页面,并且返回结果
 作者: 慈勤强  
[email protected]
 参考:http://java.sun.com
  **/

import java.io.*;
import java.net.*;

public class FirstSocket
{
 public static void main(String args[])
 {
  
  //判断参数是否为两个,正确的用法为 FirstSocket 网站 页面
  if(args.length!=2)
  {
   System.out.println("Usage : FirstSocket host page/r/nExample:FirstSocket
www.google.com /");
   System.exit(0);
  }
  String strServer=args[0]; //取得第一个参数
  String strPage = args[1]; //取得第二个参数

  try
  {
   String hostname = strServer;
   int port = 80;
   InetAddress addr = InetAddress.getByName(hostname);
   Socket socket = new Socket(addr, port); //建立一个Socket
   
   //发送命令
   BufferedWriter wr = new BufferedWriter(new OutputStreamWriter(socket.getOutputStream(), "UTF8"));
   wr.write("GET " + strPage + " HTTP/1.0/r/n");
   wr.write("HOST:" + strServer + "/r/n");
   wr.write("/r/n");
   wr.flush();
   
   //接收返回的结果
   BufferedReader rd = new BufferedReader(new InputStreamReader(socket.getInputStream()));
   String line;
   while ((line = rd.readLine()) != null) {
    System.out.println(line);
   }
   wr.close();
   rd.close();
  }
  catch (Exception e)
  {
   System.out.println(e.toString());
   }
 }
}

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章