一般出現這個情況是由於url指向的頁面,實際編碼與html中描述的編碼不符導致。如:開發時用的GBK編碼編寫,但html中卻寫UTF-8。典型的就是在中文Windows下用記事本,寫一個UTF-8的html就會出現這個問題。
你可以不用jsoup.connect,這個會從html描述中識別。
你可以用Jsoup.parse(InputStream in, String charsetName, String baseUri) 的方式從一個流中讀取,charsetName選擇合適的編碼。
如:
String url = "http://xxxxxxx";
Document document = Jsoup.parse(new URL(url).openStream(), "GBK", url);//你可以試試GBK或UTF-8