Python爬虫流程 一、基本流程 二、Request请求 三、Response响应

本文参考: 爬虫 - 基本介绍、流程总结

一、基本流程

1.发起请求

二、Request请求

2.1 请求方式

常用的请求方式:GET,POST (其他请求方式:HEAD,PUT,DELETE,OPTHONS )
post与get请求最终都会拼接成这种形式:k1=xxx&k2=yyy&k3=zzz
post请求的参数放在请求体内: 可用浏览器查看,存放于form data内
get请求的参数直接放在url后

2.2 请求url

url全称统一资源定位符,如一个网页文档,一张图片 一个视频等都可以用url唯一来确定
url编码 :https://www.baidu.com/s?wd=图片 ;图片会被编码
网页的加载过程: 加载一个网页,通常都是先加载document文档, 在解析document文档的时候,遇到链接,则针对超链接发起下载图片的请求

2.3 请求头

User-agent:请求头中如果没有user-agent客户端配置;服务端可能将你当做一个非法用户
host
cookie :cookie用来保存登录信息

2.4 请求体

get 请求方式,请求体内没有内容
post请求方式,请求体是format data等

三、Response响应

  • 响应状态
    200:代表成功
    301:代表跳转
    404:文件不存在
    403:权限
    502:服务器错误

  • Respone header
    set-cookie:可能有多个,是来告诉浏览器,把cookie保存下来

  • preview就是网页源代码
    最主要的部分,包含了请求资源的内容;如网页html,图片,二进制数据等

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章