爬虫入门(笔记一)

爬虫入门(笔记一)

  所谓网络爬虫,就是一种按照一定的规则自动地抓取万维网信息的程序或者脚本。一个爬虫可以大致分为三个部分:抓取、解析、存储

  • 抓取,即将含有有用信息、数据的网页抓取下来。这也是最基本的步骤,因为只有将网页抓取了下来才有后面的步骤才可以谈。

  • 其次是解析,即将网页中的有用数据提取出来。

  • 最后就是存储,将提取出来的数据存储起来方便后续对这些数据的进一步使用。存储的方式可以是文本形式的存储,也可以利用数据库来进行存储。

  在这一学习笔记中,准备学习的具体部分如下图所示:
在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章