Jsoup獲取絕對路徑

自從使用 HttpClient 和 Jsoup 配合編寫了幾個簡單的入門爬蟲之後,發現對於絕對路徑的需求是很頻繁的,因爲大部分的網頁都寫相對路徑,這樣是有好處的,但是爬蟲還是需要獲取絕對的路徑的。
通常我的處理方式是在獲取的相對路徑路徑前面,拼接一個根路徑。當是,這種方法只能適用於,相對路徑是相對於當前路徑的,如果相對路徑是相對於當前路徑的上一級或更上一級,那就不好處理了。正好我昨天我碰到了這種相對路徑。我無意間發現原來 Jsoup 本身就提供了這個功能,但是我發現很多其他人的博客,雖然介紹了 Jsoup 通過相對路徑獲取絕對路徑的方法,但是都沒有介紹完全,爲此我也是走了幾個坑,特意在此說明一下。

通過Jsoup將相對路徑轉爲絕對路徑的方法

如果想要通過 attr 方法獲取到絕對路徑,必須同時使用這兩個方法。

Document org.jsoup.Jsoup.parse(String html, String baseUri);
String org.jsoup.nodes.Node.attr(String attributeKey);
  1. 必須使用Jsoup 帶有 baseUri 參數的重載方法,如果只是用具有第一個參數的 方法,那麼通過attr取絕對路徑時,獲取的內容爲空!這是一個坑,但是其它人的博客都沒有介紹這一點。

Parameters:
html HTML to parse
baseUri The URL where the HTML was
retrieved from. Used to resolve relative URLs to absolute URLs, that
occurbefore the HTML declares a <base href> tag.

這裏列出參數的註釋,第一個參數是需要解析的html文檔,第二個參數是這個html的url。用於將相對url解析爲絕對url,即在HTML聲明標記之前發生。

注意: 這裏的 baseUri 並不是網站的根路徑,它是指當前的html路徑。即當前相對路徑所在的html文檔的路徑,是相對路徑相對的那個路徑。
所以,如果填寫的是當前根路徑,那麼最後獲取的絕對路徑也是有問題的。(也許是可以使用的,但是格式可能有問題。)
下面第二點,依賴於當前這個給定的 baseUri 參數。

  1. attr 方法裏面的一句話:

To get an absolute URL from an attribute that may be a relative URL, prefix the key with abs,which is a shortcut to the absUrl method.
E.g.: String url = a.attr(“abs:href”);
這句話的意思是從一個相對路徑種獲取一個絕對路徑,使用 abs 前綴,這是absUrl方法的快捷方式。
並且給了一個示例:

String url = a.attr("abs:href");

所以,如果想要獲取到絕對路徑的話,需要在參數前面加上 abs:
這裏 abs 就是 absolute 的縮寫,它的意思就是絕對的。

但是,如果不去使用帶有上面第一點提到的那個重載的 parse 方法的話,這種方法是取不到絕對路徑的,甚至是取不到路徑。我在這裏踩了一個坑。

示例

這裏以一個簡單的例子說明:
代碼:

package ahnu.news;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

public class JsoupPathTest {
	public static void main(String[] args) {
		String html = "<html>"
				+ "<head></head>"
				+ "<body>"
				+ "<a href=\"../dragon/love/you\"></a>"
				+ "</body>"
				+ "</html>";
		
		System.out.println("正確的用法");
		Document doc = Jsoup.parse(html, "http://example/index/loveyou/");
		Element aTag = doc.getElementsByTag("a").first();   //獲取 a 標籤,只有一個,取第一個即可。
		System.out.println(aTag);
		String relativePath = aTag.attr("href");      //獲取相對路徑
		String absolutePath = aTag.attr("abs:href");  //獲取絕對路徑
		System.out.println("相對路徑:" + relativePath);
		System.out.println("絕對路徑:" + absolutePath);
		
		System.out.println("---------------------分割線---------------------");
		
		System.out.println("錯誤的用法");
		doc = Jsoup.parse(html);
		aTag = doc.getElementsByTag("a").first();   //獲取 a 標籤,只有一個,取第一個即可。
		System.out.println(aTag);
		relativePath = aTag.attr("href");      //獲取相對路徑
		absolutePath = aTag.attr("abs:href");  //獲取絕對路徑
		System.out.println("相對路徑:" + relativePath);
		System.out.println("絕對路徑:" + absolutePath);
	}
}

運行結果:
在這裏插入圖片描述
注意:
1.在解析html的時候,必須添加 baseUri 參數,否則獲取絕對路徑時,反而什麼都得不到,這是一個坑,注意防範。
2.希望其他人貼方法的時候,可以附帶代碼的執行結果,或者如果是轉載的別人的博客,也可以運行一下代碼,不然如果他錯了,你也轉載,那就是在傳播錯誤了。
3.英語還是很重要的,關鍵時候可以幫助自己理解api的正確用法。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章