問題
在本機硬盤上有一個HTML文件,需要對它進行解析從中抽取數據或進行修改。
辦法
可以使用靜態 Jsoup.parse(File
in, String charsetName, String baseUri)
方法:
File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
說明
parse(File
in, String charsetName, String baseUri)
這個方法用來加載和解析一個HTML文件。如在加載文件的時候發生錯誤,將拋出IOException,應作適當處理。
baseUri
參數用於解決文件中URLs是相對路徑的問題。如果不需要可以傳入一個空的字符串。
另外還有一個方法parse(File
in, String charsetName)
,它使用文件的路徑做爲 baseUri
。 這個方法適用於如果被解析文件位於網站的本地文件系統,且相關鏈接也指向該文件系統。