python爬虫案例——知乎数据采集

全栈工程师开发手册 (作者:栾鹏)
python教程全解

首先你需要了解python数据挖掘库urllib、urllib2、cookie的知识。参考http://blog.csdn.net/luanpeng825485697/article/details/78383884

cookie模拟登陆

知乎需要设置cookie模拟登陆状态,需要设置http头,满足知乎服务器的检测。

知乎地址https://www.zhihu.com

在没有登陆时访问这个网址,只能出现登陆界面
这里写图片描述

如果登陆以后,在访问这个网址,就会出现文章列表。

这里写图片描述

这是因为访问此地址,知乎服务器会查询请求cookie,如果请求cookie没有用户信息,就证明没有登陆,就会返回登陆界面,如果有cookie信息就会返回文章列表界面,同时包含用户的其他信息。所以首先需要让自己的请求中能带有包含自己信息的cookie。这一步通过登陆来实现。

在登陆界面,通过post将用户账号密码发送给服务器,服务器会将用户信息以cookie的形式返回给用户,用户在下次请求时,就会自动将这个cookie添加

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章