獲取html頁面內容的方法

獲取html頁面內容的方法有很多了,一般都是連接上以後取得頁面的內容,然後進行分析。一般用JDK裏面提供的  URL和URLConnection 類,就可以實現;當然,也可以用其他工具來實現,比如 httpunit(用這個有時候會有問題,如果頁面裏面有反盜鏈的設置或者其他一些有問題的代碼,很可能就連接不上了)。 如果單純只是想得到頁面的內容,用JDK裏面提供的類就足夠。

得到了頁面內容以後,怎麼顯示在我們自己的頁面上面呢?特別是要顯示在TEXTAREA這樣的區域裏面就會有點點麻煩。

因爲我們獲得的內容裏面有html標記和javascript標記,或者css標記。

如果直接把這些內容打印出來,或者直接放到TEXTAREA裏面,就會報錯。。怎麼來解決?

一般大家都會想到用字符串來替換,比如 把"<"替換成"[" 等等,或者用正則表達式,來過濾這些標記。

其實有一直很簡單方法,就是把得到的頁面內容放在<div></div>中間,例如:

<div id="content" style="display:none;">
.........
</div>

然後用javascript來取content,

function show()
{
 form1.content.value = document.getElementById("content").innerText;
}

這樣就自動過濾了那些煩人的標記了哦!! 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章