Jsoup解析本地html,對文本內容提取

前4天我都在對html解析的研究,剛開始瞭解到的是 htmlparser  這個開源項目,從零開始摸索

了3天,還是一頭霧水,我說的是整整的3天哦,被一大堆的方法給弄暈乎,應該是自己沒有弄懂api

      到第3天晚上的時候。看到一篇播客寫了Joup..引用原文:

《但現在我已經不再使用 htmlparser 了,原因是 htmlparser 很少更新,但最重要的是有了 jsoup 。

jsoup 是一款 Java 的 HTML 解析器,可直接解析某個 URL 地址、HTML 文本內容。它提供了一套非常省力的 API,可通過 DOM,CSS 以及類似於 jQuery 的操作方法來取出和操作數據。

jsoup 的主要功能如下:

1. 從一個 URL,文件或字符串中解析 HTML;

2. 使用 DOM 或 CSS 選擇器來查找、取出數據;

3. 可操作 HTML 元素、屬性、文本;

jsoup 是基於 MIT 協議發佈的,可放心使用於商業項目。》

隨便了解一下,到了第4天的時候,我決定開始深入一下Jsoup因爲在開源中國中有一個Jsoup專題。看起來很爽,複製其中的代碼

運行起來更爽,代碼簡單清晰,明瞭。

然後我 又jsoup官網瞭解了api.雖然英語不是很好,但由於其簡單明瞭,居然讓我看懂了,自己嘗試了用api編寫了自己想要的程序

。運行時剛開始出現了很多亂碼,糾結了我一天,最後到了第二天。這一個晚上睡覺真的沒有睡好,腦子裏一直惦記這着事情。

第二天,我開始繼續分析,一行一行的,中間有個編碼的格式,我想會不會是這裏的問題,然後我找到輸入文件,查看了文件編碼格式,

頓時,一道靈光從腦袋直衝天靈蓋。大徹大悟了-----------------------------------

   改了編碼格式,我想要的東西出來了,我興奮的圍着房子走了幾圈。

然後我繼續研究api,實在是太高興了,後期我會學習一下chm的製作,爭取做一箇中文jsoup api的chm查看文檔,對自己研究的jsoup

畫一個美好的逗號,幫助一下和我一樣的初學者



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章