什么是python爬虫?

1、爬虫

就是给网站发起请求,并从响应中提取数据的自动化程式;

  1. 发起请求,获取响应
    通过http库,对目标点进行请求。等同于自己打开浏览器,输入地址
    常用库:urllib、urllib3、requests
    服务器会返回请求的内容,一般是:HTML、二进制文件(视频、音频)、文档、json字符串等

  2. 解析内容
    寻找自己需要的信息、就是利用正则表达式或者其他工具库提取目标信息
    常用库:re、beautifulsoup4

  3. 保存数据
    将解析到的数据持久化到文件过着数据库中

2、通过浏览器查看请求的响应信息

在这里插入图片描述
访问百度 按【F12】打开开【发者模式】切换到【Network】
这时我们按F5进行页面刷新就会看到【请求】的【响应】
在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章