爬蟲相關 ---- 正則表達式過濾掉html裏面的部分代碼(註釋)

在網上看到一個大神的代碼,得到html代碼以後如何過濾掉註釋代碼。網上有人推薦使用JSOUP的cleaner,有人推薦正則。

這個方法特別簡單易懂。保存下來方便學習參考。

Pattern p=Pattern.compile("\\<!--(.+)--\\>");
  String html=".....";//jsoup得到的html代碼
  Matcher m=p.matcher(html);
  while(m.find()){
   System.out.println(m.group());
  }
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章