Jsoup解析HTML頁面，進行網頁爬取數據時遇到的坑

原創

2020-02-21 04:15

問題一：

當我使用doc.getElementsByClass(“class的值”)對以下帶有#空格#（多值的）的塊，進行獲取數據的時候，發現獲取不到任何數據。

解決過程：

使用其它的方法替換它，使用Elements 的select(String cssQuery)

Elements elements = elementsRoot.get(0).select(searchbar.searchbar-hotel.hide);

這樣便能獲取到該塊對應的數據元素。

問題二：

爬取數據進行解析時存在部分亂碼。

解決過程：

出現亂碼，肯定是編碼格式出現錯誤；
而得到的數據只出現很少的一部分亂碼，可以通過對比方法找問題。經過與原網頁的數據一一進行對應比較，發現是部分空格佔位符&nbsp導致的。
既然這個字符對我無意義的，那我將它替換就行。使用以下方法解決：

String hotels = els.text().replace(Jsoup.parse("&nbsp;").text(), " ");

問題三：

爬取數據時出現異常。org.jsoup.UnsupportedMimeTypeException: Unhandled content type. Must be text

解決過程：

查看日誌，發現是請求類型不符合。
將原來的代碼：

Connection conn = Jsoup.connect(url).timeout(10 * 1000).get();

更換爲：

Connection conn = Jsoup.connect(url).timeout(10 * 1000).get().ignoreContentType(true);

即可解決！

發佈了135 篇原創文章 · 獲贊 6 · 訪問量 2萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

mybatis開啓MapperScannerConfigurer導致properties不生效

背景 spring和mybatis集成過程中，我們可以通過MapperFactoryBean的方式配置Mapper接口。但是這樣需要在配置文件中，爲每個mapper配置相同的代碼塊，浪費時間。關鍵對於代碼潔癖的人來說，一點不能忍。 <bea

2024-02-07 13:55:41

Java字符串的一些理解

爲什麼要研究字符串？人機交互的過程中，文字、數字、字母、符號都是字符表現形式，這部分內容佔了人機信息交互的大部分內容，所以有必要明確一些基本問題。因此大部分數據類型都應該有字符串表達形式，我們在定義新類型的時候可以根據需要來定義新類型的

2023-10-31 09:11:32

（二）java版spring boot 社交電子商務平臺-security簡單使用

security的簡單原理：使用衆多的攔截器對url攔截，以此來管理權限。但是這麼多攔截器，不可能對其一一來講，主要講裏面核心流程的兩個。首先，權限管理離不開登陸驗證的，所以登陸驗證攔截器AuthenticationProcessing

2023-10-10 11:05:06

（三）java版spring cloud+spring boot+redis多租戶社交電子商務平臺-Spring Cloud實戰隨機端口

我們經常會需要啓動多個實例的情況來測試註冊中心、配置中心等基礎設施的高可用，也會用來測試客戶端負載均衡的調用等。但是，我們一個應用只能有一個端口號，這就使得在本機測試的時候，不得不爲同一個服務設置不同的端口來進行啓動。在本地用不同端口啓動

2023-10-10 11:05:04

如何使用 Java 反射？反射的用法及案例

簡介 Java Reflection，稱爲 Java 反射，是Java基礎部分的一個比較難的點。Reflection（反射）是被視爲動態語言的關鍵，通過反射機制，我們可以在運行時（runtime）獲取類的完整結構。例如，可以獲取到

2023-10-10 02:23:57

最新美團面試集合（一面+二面+三面+重點技術面試題）附面試解析

一面 1. 簡短自我介紹 2. 事務的ACID，其中把事務的隔離性詳細解釋一遍 3. 髒讀、幻影讀、不可重複讀 4. 紅黑樹、二叉樹的算法 5. 平常用到哪些集合類？ArrayList和LinkedList區別？HashMap內部數據結構

2023-10-10 01:43:49

Java程序員不想被裁員困擾，應該怎樣築基、發展才能越走越遠？

當我們站在技術之路的原點，未來可能充滿了迷茫，也存在着很多不同的可能。在這個知識爆炸與終身學習/碎片化學習爲主的時代，我們面臨的問題之一就是如何進行有效學習，不僅能有效平衡廣度與深度，並且能真正的積澱下來，提升自己的研發效能。於筆者而

2023-10-10 01:43:34

阿里巴巴Java開發手冊梳理筆記 - finally 塊必須對資源對象、流對象進行關閉

阿里巴巴Java開發手冊梳理筆記 - finally 塊必須對資源對象、流對象進行關閉規約內容： 2.1 異常處理 6. 【強制】 finally 塊必須對資源對象、流對象進行關閉，有異常也要做 try - catch 。說明：如果

2023-08-02 10:29:06

java併發-CAS的理解

在Java方面，能夠實現多線程安全修改對象值得方法只有2個 1.原子操作 2.互斥方法而在Java當中，或是其他語言中，基本上也都是使用CAS實現。CAS是比較並交換的意思，這個操作包含2個連續的操作，比較，還有賦值，因爲2個操作在cpu

2023-05-29 01:40:21

java併發-Timer類的使用和原理

單線程輪詢並執行任務，有可能會導致飢餓。比較適合於一些具有一個任務的週期調度。任務列表用數組存儲，元素最前面的元素是最先被執行的任務。 schedule方法是固定間隔執行，根據上一次執行的結束時間來定義間隔的開始時間 scheduleAt

2023-03-28 01:52:22

java併發-ReadWriteLock代碼理解

創建的ReadWriteLock需要使用兩個方法來繼續創造2個對象，分別是ReadLock和WriteLock。這兩個鎖對象的方法調用都會匯聚到ReadWriteLock的Sync類中。多個對象的方法調用匯聚到一個對象上面，這個設計模式是

2023-03-28 01:52:20

java併發-synchronized關鍵字

synchronized關鍵字可以修飾普通方法，靜態方法，當修飾普通方法，鎖對象是當前對象，當修飾靜態方法，鎖對象是當前類的class synchroinzed關鍵字可以使用同步代碼塊實現同步，此時可以指定鎖對象。同步方法的實現方式同步

2023-03-28 01:52:18

java併發-AQS總結-原理

AQS是Java多線程編程的重入鎖，管程，工具類的基礎類，是必須要掌握的。不掌握這個類，根本不能稱之爲合格的Java程序員。即使是把這個類所有的代碼都背會，也是值得的。如何標識已經有線程在執行呢？有兩個變量，一個state變量，一個e

2023-03-28 01:52:16

Junit4遇上chatGPT

這是一篇適合Java工程師體質的AI開發教程。本教程會教你寫一個簡單的junit4的Rule，該Rule在基於junit4的測試方法失敗後，自動向GPT發送錯誤信息並通過GPT分析得出代碼修改建議。首先向AI問好簡單的通過AI，讓它

2024-06-06 23:55:13

利用HttpClient庫下載螞蜂窩圖片

前言網絡爬蟲技術作爲互聯網數據獲取的重要工具，在各行各業都有着廣泛的應用。而在本文中，我們將利用Java中的HttpClient庫，通過編寫一個簡單而有效的網絡爬蟲程序，實現下載螞蜂窩網站的圖片的功能。通過這個例子，我們不僅可以學習如

2024-04-23 23:24:51

24小時熱門文章

Wireshark 安裝+使用（一）

最新文章

最新評論文章