Python网络爬虫(二)——http/https 协议

原創

2020-05-14 10:48

自上篇爬虫文章写完之后，好长时间都没有再写爬虫相关的了，这次重新回顾了一下爬虫的相关内容，一并记在这里。

有的东西之前虽然已经写过了，但是再废话一遍。

http/https 协议

HTTP(Hypertext Transfer Protocol，超文本传输协议)：是一种发布和接受 HTML 网页的方法，服务器端口号为 80 端口
HTTPS(Hypertext Transfer Protocol over SecureSocket Layer，超文本传输安全协议)：相比较于 HTTP 来说，HTTPS 多了一个 SSL，这个 SSL 就是 SecureSocket Layer 的意思，也就是说 HTTPS 是 HTTP 的加密版本。服务器端口号为 443 端口

URL(Uniform Resource Locator，统一资源定位符)：简单的说，就是我们平常在浏览器中输入的网址，该网址能够定位到该资源在网络上的唯一地址。一般来说一个 URL 主要由以下几部分组成：

scheme://host:port/path/?query-string=xxx#anchor

上边的 URL 中，各个部分表示的内容为：

以下边的网站为例：

https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=2&tn=baiduhome_pg&wd=http&rsv_spt=1

可以看出在上边的 URL 中：

根据 HTTP 标准，HTTP 请求可以使用多种请求方法。

各项请求的作用为：

请求方法	描述
GET	请求指定的页面信息，并返回实体主体
HEAD	类似于 GET 请求，只不过返回的响应中没有具体的内容，用于获取报头
POST	向指定资源提交数据进行处理请求（例如提交表单或者上传文件）。数据被包含在请求体中。POST 请求可能会导致新的资源的建立和/或已有资源的修改
PUT	从客户端向服务器传送的数据取代指定的文档的内容
DELETE	请求服务器删除指定的页面
CONNECT	HTTP/1.1 协议中预留给能够将连接改为管道方式的代理服务器
OPTIONS	允许客户端查看服务器的性能
TRACE	回显服务器收到的请求，主要用于测试或诊断
PATCH	是对 PUT 方法的补充，用来对已知资源进行局部更新

但在爬虫中，常用的 HTTP 请求方法主要为 get/post。

在发送 HTTP 请求时，数据一般分为三部分：

而一些常见的请求头参数为：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.