python爬虫第一天

学习爬虫我参考的是崔庆才爬虫入门,昨天晚上安装好了redis、mongodb等软件,今天正式开始学习py爬虫
一、介绍库名:
1、urllib库和re库,安装python时自动安装
urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。
re是一个正则库
2、requests库
equests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多
3、selenium库
如果网页中有js动态程序,那么爬虫就会遇到阻力,这时就要使用selenium库,驱动浏览器推动浏览器渲染
(1) driver = webdriver.Chrome() 时报错
在这里插入图片描述
这时我们需要安装chromed’river包
4、plantomjs
chromedriver老是出来界面也很麻烦,这是我们需要一种软件不显示网站消息,
5、解析库:lxml
有了网站源码之后我们还需要解析源代码,这时我们可以使用
6、解析库:beautifulsoup
依赖lxml
7、解析库:pyquery
也是一个网络解析库,语法和jquery一样
8、存储库:pymysql
pymongo
redis
9、框架(类似java的springmvc、mybatis、。。。,是py的web框架):flask
外部库,用它来做代理的获取、代理的存储之类的
框架:django
Python下有许多款不同的 Web 框架。Django是重量级选手中最有代表性的一位。
外部服务器框架,提供接口路由模板管理引擎,分布式爬虫的维护,做一个管理系统:主机信息、
10: jupyter:相当与一个notebook,这个记事本功能强大,可以运行在网页端,形成一个代码记录,实现在线运行代码,并且支持markdown格式

问:我们通过request请求响应得到的原代码和我们F12浏览器得到element是有差距的,原因就是这是经过js渲染的代码,那么我们怎么解决这个问题呢?
答:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章