Python之初识爬虫(1)

网络爬虫是一种自动获取网页内容的程序，是搜索引擎的重要组成部分。网络爬虫为搜索引擎从万维网下载网页。

其实通俗的讲就是通过程序去获取web页面上自己想要的数据，也就是自动抓取数据

可以自动化爬取你想浏览的信息，非常快速方便。

模拟打开浏览器，获取网页上我们需要的那部分信息

浏览器打开网页过程：

输入一个网址后，通过DNS服务器找到服务器主机，向服务器发送请求，服务器解析后发送给浏览器结果，包括html、js、css等内容，浏览器将信息解析后，把信息呈现给用户。

所以网页的信息实际上是在html文件里的，爬虫就是获取这些html文件，并对其中的信息进行筛选，从而得到我们想要的信息。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.