爬虫

什么是爬虫?
百度百科:网络爬虫
那为什么要学习爬虫?
学习爬虫为了提取某个网站或者某个应用的内容,提取有用的价值
关于python爬虫,我们需要学习:python基础语法(基础知识)
HTML页面的内容抓取(数据抓取)
HTML页面的数据提取(数据清洗)
scrapy框架以及scrapy-redis分布式策略(第三方框架)
爬虫 反爬虫 反反爬虫之间的斗争
1根据使用场景不同,网络爬虫可以分为通用爬虫和聚焦爬虫两种。
一:通用爬虫 :通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo 等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份
二:通用搜索引擎工作原理:通用网络爬虫 从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。
第一步:抓取网页
搜索引擎网络爬虫的基本工作流程如下:
首先选取一部分的种子URL,将这些URL放入待抓取URL队列;取出待抓取URL,解析DNS的到的主机IP,并将URL对应的网页下载下来,存储进已下载网页库中,并且将这些URL放进已抓取URL队列 。分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章