C++ 爬蟲程序
項目描述
使用 C++ 編程語言,實現一個 爬蟲程序,來對圖片進行下載。
開發平臺
Windows 10
流程介紹
-
先輸入一個起始 URL 進入 URL 隊列。
-
在當前路徑下創建一個文件夾。
#include <Windows.h> CreateDirectory("./images", NULL);
-
獲取到當前隊列中首部的 URL。
-
解析 URL,主要作用是判斷是否是正確的 URL,並且獲取到服務器域名和資源路徑。
-
連接服務器。
gethostbyname(std::string); // 通過這個函數獲取到服務器的 IP 地址
-
獲取網頁源碼。
向服務器發送 HTTP 請求。獲取到網頁源碼。
-
使用正則表達式解析網頁源碼。
- 如果是圖片 URL 就放進先前創建好的數組中。
- 如果是其他 URL 就放進隊列中,讓其後續循環處理。
-
下載圖片。
循環遍歷剛纔存放圖片的數組,重新對圖片的 URL 建立連接和獲取源碼。
去除服務器返回的 HTTP 頭部信息,將正文信息寫到一個新創建的文件裏,放到之前創建的文件夾。