文章目录
爬虫入门(笔记一)
所谓网络爬虫,就是一种按照一定的规则自动地抓取万维网信息的程序或者脚本。一个爬虫可以大致分为三个部分:抓取、解析、存储。
-
抓取,即将含有有用信息、数据的网页抓取下来。这也是最基本的步骤,因为只有将网页抓取了下来才有后面的步骤才可以谈。
-
其次是解析,即将网页中的有用数据提取出来。
-
最后就是存储,将提取出来的数据存储起来方便后续对这些数据的进一步使用。存储的方式可以是文本形式的存储,也可以利用数据库来进行存储。
在这一学习笔记中,准备学习的具体部分如下图所示: