C++ 爬虫程序

C++ 爬虫程序

项目描述

使用 C++ 编程语言,实现一个 爬虫程序,来对图片进行下载。

开发平台

Windows 10

流程介绍

在这里插入图片描述

  1. 先输入一个起始 URL 进入 URL 队列。

  2. 在当前路径下创建一个文件夹。

    #include <Windows.h>
    
    CreateDirectory("./images", NULL);
    
  3. 获取到当前队列中首部的 URL。

  4. 解析 URL,主要作用是判断是否是正确的 URL,并且获取到服务器域名和资源路径。

  5. 连接服务器。

    gethostbyname(std::string); // 通过这个函数获取到服务器的 IP 地址 
    
  6. 获取网页源码。

    向服务器发送 HTTP 请求。获取到网页源码。

  7. 使用正则表达式解析网页源码。

    • 如果是图片 URL 就放进先前创建好的数组中。
    • 如果是其他 URL 就放进队列中,让其后续循环处理。
  8. 下载图片。

    循环遍历刚才存放图片的数组,重新对图片的 URL 建立连接和获取源码。

    去除服务器返回的 HTTP 头部信息,将正文信息写到一个新创建的文件里,放到之前创建的文件夹。

源代码

GitHub

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章