- 用的是Jsoup,這個工具可以解析指定URL文檔的內容。
- 如果是普通的工程則需要導入相應jar包,如果是Maven工程則需要引入座標,座標如下:
<!-- jsoup -->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.7.2</version>
</dependency>
當然,也可以選擇其他版本。如果需要導入jar包的話,可以自己下載。
3. 這裏爬取的是淮河水利委員會水文局網站上的實時水情數據。
4. 代碼如下:
package pachong;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.net.URL;
import java.util.Arrays;
public class JsoupDemo1
{
public static void main(String[] args) throws Exception
{
Document document = Jsoup.parse(new URL("http://www.hrc.gov.cn/swj/"), 5000);
Elements elements = document.select("[class=shuiqing_table] tr");
for (Element element : elements)
{
String text = element.text();
String[] s = text.split(" ");//字符串切割
System.out.println(Arrays.toString(s));
}
}
}
- 運行結果如下圖: