什么是爬虫
网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。网络爬虫为搜索引擎从万维网下载网页。
其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据
爬虫能做什么
可以自动化爬取你想浏览的信息,非常快速方便。
爬虫的本质是什么
模拟打开浏览器,获取网页上我们需要的那部分信息
浏览器打开网页过程:
输入一个网址后,通过DNS服务器找到服务器主机,向服务器发送请求,服务器解析后发送给浏览器结果,包括html、js、css等内容,浏览器将信息解析后,把信息呈现给用户。
所以网页的信息实际上是在html文件里的,爬虫就是获取这些html文件,并对其中的信息进行筛选,从而得到我们想要的信息。