C++ 爬蟲程序

C++ 爬蟲程序

項目描述

使用 C++ 編程語言,實現一個 爬蟲程序,來對圖片進行下載。

開發平臺

Windows 10

流程介紹

在這裏插入圖片描述

  1. 先輸入一個起始 URL 進入 URL 隊列。

  2. 在當前路徑下創建一個文件夾。

    #include <Windows.h>
    
    CreateDirectory("./images", NULL);
    
  3. 獲取到當前隊列中首部的 URL。

  4. 解析 URL,主要作用是判斷是否是正確的 URL,並且獲取到服務器域名和資源路徑。

  5. 連接服務器。

    gethostbyname(std::string); // 通過這個函數獲取到服務器的 IP 地址 
    
  6. 獲取網頁源碼。

    向服務器發送 HTTP 請求。獲取到網頁源碼。

  7. 使用正則表達式解析網頁源碼。

    • 如果是圖片 URL 就放進先前創建好的數組中。
    • 如果是其他 URL 就放進隊列中,讓其後續循環處理。
  8. 下載圖片。

    循環遍歷剛纔存放圖片的數組,重新對圖片的 URL 建立連接和獲取源碼。

    去除服務器返回的 HTTP 頭部信息,將正文信息寫到一個新創建的文件裏,放到之前創建的文件夾。

源代碼

GitHub

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章