java爬蟲實現數據抓取

原創

2020-02-21 14:34

這篇博客我們將用java來實現基本的爬蟲數據抓取操作，基本思路就是通過java訪問url,然後拿到返回的html文檔，並用jsoup解析。
首先我們來看下需要抓取的頁面，以我自己的csdn博客列表頁面爲例。我們將每篇博客的鏈接地址，文章標題以及摘要抓取出來。下面是代碼實現：

public class WhxCsdnCrawler  {
    public static void main(String[] args) {
          String userName="hx_wang007";
          String csdnUrl="http://blog.csdn.net/"+userName;
          Connection conn = Jsoup.connect(csdnUrl);//獲取連接
          //設置請求頭，僞裝成瀏覽器(否則會報403)
          conn.header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36");
          try { //設置超時時間，同時Document對象中封裝了返回的html文檔
                Document doc=conn.timeout(100000).get();
                String url;
                String title;
                String desc;
                //得到博客列表
                Element element=doc.getElementsByClass("skin_list").first();
            for(Element ele:element.children()){
                Element e=ele.getElementsByClass("list_c_t").first().child(0);
                url = e.attr("href");
                url="http://blog.csdn.net"+url;
                title = e.text();
                Element e1=ele.getElementsByClass("list_c_c").first();
                desc=e1.text();
                System.out.println(url+":"+title+":"+desc);
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

}

下面是運行結果：

hx_wang007

發佈了27 篇原創文章 · 獲贊 20 · 訪問量 3萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

java爬蟲實現數據抓取

985 碩士程序員，空窗 4 個月沒有 Offer！

營銷系統黑名單優化：位圖的應用解析

我真的從測試轉成了開發......

nginx添加相應配置，通過瀏覽器訪問或curl時返回客戶端對應公網IP

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

python內置函數——sorted

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

爲何我建議你學會抄代碼

一文搞懂 Spring 循環依賴

抖音面試：說說延遲任務的調度算法？

java基礎之I/O流

java爬蟲實現數據抓取

畢業三個月感悟

java多線程總結

PL/SQL基礎

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結