Python爬虫库学习笔记-requests

安装
(1)利用pip安装,命令行直接输入pip install requests
(2)利用easy_install安装,命令行直接输入easy_install requests


基本请求
(1)requests库提供http所有的基本请求方式,get,post,put,delete,head,options。


基本GET请求
(1)直接使用get方法。
(2)想要加参数,在get方法内传入params参数,get方法会帮你把url和参数连接起来。
(3)想要请求json文件的话,可以使用json()方法来解析。
(4)想要获取来自服务器的原始套接字响应,可以使用raw()方法,同时需要在get()请求中设置stream参数为True。
(5)想要添加headers信息,要向get()方法里的headers参数传递一个包含信息的字典。


基本POST请求
(1)对于post请求,我们最起码需要以字典的形式传递data参数。
(2)当我们需要传送的信息不是表单形式,而是json格式的时候,我们可以使用json.dums()方法把表单数据序列化后传递给data参数。
(3)如果想要上传文件,直接使用post里面的files参数。
(4)requests支持流式上传的,这就允许你发送大的数据流或文件而无需把它们读入内存。要使用流式上传,需要为请求体提供一个类文件对象,然后传递给data参数。


Cookies
(1)如果一个响应包含了cookie,那么我们可以利用cookies变量获取到。
(2)请求方法中含有cookies参数,允许我们向服务器发送cookies信息,cookies参数接收的是字典类型的数据。


超时配置
(1)使用请求方法中的timeout参数来设置最大的请求时间,需要注意的是timeout只是对连接过程有效,与响应体的下载无关。


会话对象
(1)每使用一个请求方法,都相当于新开一个会话。要想保持一个持久的会话需要使用创建会话对象Session,然后由会话对象来调用请求方法。相同会话调用的请求方法等于同一个会话。
(2)可以通过s.headers.update()方法设置headers中的信息。
(3)通过(2)方法设置headers信息与使用请求方法中的headers参数设置是不冲突的,也就是会在最后同时添加上去,但是相同的信息会被覆盖。
(4)如果要删除headers中某个信息,把该信息对应的值设置为None,然后以字典的形式传递给headers参数即可。


SSL证书验证
(1)对于https开头的网站我们可以请求验证SSL证书。
(2)requests可以为HTTPS请求验证SSL证书,在请求方法中设置verify参数为True。
(3)是否请求要按需求来,不一定要请求才能获取页面相应的。


代理
(1)如果需要使用代理,可以通过为任意请求方法提供proxies参数来配置单个请求,以字典的形式给proxies参数设置形参。


官方文档:
requests官方文档


具体内容请看:
静觅 » Python爬虫利器一之requests库的用法

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章