Jsoup 亂碼問題解決

一般出現這個情況是由於url指向的頁面,實際編碼與html中描述的編碼不符導致。如:開發時用的GBK編碼編寫,但html中卻寫UTF-8。典型的就是在中文Windows下用記事本,寫一個UTF-8的html就會出現這個問題。

你可以不用jsoup.connect,這個會從html描述中識別。

你可以用Jsoup.parse(InputStream in, String charsetName, String baseUri) 的方式從一個流中讀取,charsetName選擇合適的編碼。

如:

String url = "http://xxxxxxx";
Document document = Jsoup.parse(new URL(url).openStream(), "GBK", url);//你可以試試GBK或UTF-8
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章