做個類似的蜘蛛抓頁,抓回的頁如何去除html,js,cssj,剩餘網頁的內容?

主  題:
做個類似的蜘蛛抓頁,抓回的頁如何去除html,js,cssj,剩餘網頁的內容?
作  者:PCIBM (PCIBM)
信 譽 值:67
所屬論壇:Web 開發 ASP
問題點數:50
回覆次數:4
發表時間:2004-12-03 11:01:38
做個類似的蜘蛛抓頁,抓回的頁如何去除html,js,cssj,剩餘網頁的內容?
回覆人: butcher2002(發言僅代表個人觀點,不保證正確) ( ) 信譽:100 2004-12-03 11:06:00 得分:0
 
οnclick=alert(test.outerHTML)
Top
回覆人: huangchao(超) ( ) 信譽:100 2004-12-03 11:07:00 得分:0
 
關注
Top
回覆人: babyt(阿泰) ( ) 信譽:100 2004-12-03 11:13:00 得分:0
 
用這個函數過濾下你抓到的內容看看
<%
Function RemoveHTML(strHTML)
 Dim objRegExp, Match, Matches   
 Set objRegExp = New Regexp
 
 objRegExp.IgnoreCase = True
 objRegExp.Global = True
 '取閉合的<>
 objRegExp.Pattern = "<.+?>"
 '進行匹配
 Set Matches = objRegExp.Execute(strHTML)
 
 ' 遍歷匹配集合,並替換掉匹配的項目
 For Each Match in Matches   
     strHtml=Replace(strHTML,Match.Value,"")
 Next
 RemoveHTML=strHTML
 Set objRegExp = Nothing
End Function

%>


Top
回覆人: pswdf(小邪) ( ) 信譽:108 2004-12-03 11:30:00 得分:0
 
用正則替換掉就行。
如果是網址,就那一段不要抓。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章