Python 爬虫学习笔记(1) 爬虫原理及基础知识

爬虫原理

爬虫是机器模仿用户操作,并批量获取数据。通常是抓取网页数据。

基础知识

http

HTTP是一种无状态的协议,无状态是指Web浏览器和Web服务器之间不需要建立持久的连接。由于这一特性,http很难保存用户信息,比如,用户前面访问的页面,以及用户登录的信息,为了更方便客户端与服务器数据的交互,引入了cookie或者session,去维系客户端与服务器之间的状态同步,cookie存在客户端的硬盘中,session则以sessionID存客户端的硬盘中,session中的数据存在服务器中,cookie的存储容量为4kb,session不限。

HTTP遵循请求(Request)/应答(Response)模型。Web浏览器向Web服务器发送请求,Web服务器处理请求并返回适当的应答。

http请求方式

http请求属于应用层,在http请求之前,要进行TCP连接,即三次握手。客户端和服务器要确保双方都有接受和发送数据的能力,在三次握手的过程中,客服端和服务器相互之前发送的报文都是不带数据的,带数据的报文只能是在建立连接之后的。

HTTP1.0定义了三种请求方法: GET, POST 和 HEAD方法。
HTTP1.1新增了五种请求方法:OPTIONS, PUT, DELETE, TRACE 和 CONNECT 方法。

以下是这八种方法的简介:
在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章