本文参考: 爬虫 - 基本介绍、流程总结
一、基本流程
1.发起请求
二、Request请求
2.1 请求方式
常用的请求方式:GET,POST (其他请求方式:HEAD,PUT,DELETE,OPTHONS )
post与get请求最终都会拼接成这种形式:k1=xxx&k2=yyy&k3=zzz
post请求的参数放在请求体内: 可用浏览器查看,存放于form data内
get请求的参数直接放在url后
2.2 请求url
url全称统一资源定位符,如一个网页文档,一张图片 一个视频等都可以用url唯一来确定
url编码 :https://www.baidu.com/s?wd=图片 ;图片会被编码
网页的加载过程: 加载一个网页,通常都是先加载document文档, 在解析document文档的时候,遇到链接,则针对超链接发起下载图片的请求
2.3 请求头
User-agent:请求头中如果没有user-agent客户端配置;服务端可能将你当做一个非法用户
host
cookie :cookie用来保存登录信息
2.4 请求体
get 请求方式,请求体内没有内容
post请求方式,请求体是format data等
三、Response响应
响应状态
200:代表成功
301:代表跳转
404:文件不存在
403:权限
502:服务器错误Respone header
set-cookie:可能有多个,是来告诉浏览器,把cookie保存下来preview就是网页源代码
最主要的部分,包含了请求资源的内容;如网页html,图片,二进制数据等