Python之初识爬虫(1)

什么是爬虫

网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。网络爬虫为搜索引擎从万维网下载网页。

其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据

 

爬虫能做什么

可以自动化爬取你想浏览的信息,非常快速方便。

 

爬虫的本质是什么

模拟打开浏览器,获取网页上我们需要的那部分信息

浏览器打开网页过程:

输入一个网址后,通过DNS服务器找到服务器主机,向服务器发送请求,服务器解析后发送给浏览器结果,包括html、js、css等内容,浏览器将信息解析后,把信息呈现给用户。

所以网页的信息实际上是在html文件里的,爬虫就是获取这些html文件,并对其中的信息进行筛选,从而得到我们想要的信息。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章