Python之初識爬蟲(1)

什麼是爬蟲

網絡爬蟲是一種自動獲取網頁內容的程序,是搜索引擎的重要組成部分。網絡爬蟲爲搜索引擎從萬維網下載網頁。

其實通俗的講就是通過程序去獲取web頁面上自己想要的數據,也就是自動抓取數據

 

爬蟲能做什麼

可以自動化爬取你想瀏覽的信息,非常快速方便。

 

爬蟲的本質是什麼

模擬打開瀏覽器,獲取網頁上我們需要的那部分信息

瀏覽器打開網頁過程:

輸入一個網址後,通過DNS服務器找到服務器主機,向服務器發送請求,服務器解析後發送給瀏覽器結果,包括html、js、css等內容,瀏覽器將信息解析後,把信息呈現給用戶。

所以網頁的信息實際上是在html文件裏的,爬蟲就是獲取這些html文件,並對其中的信息進行篩選,從而得到我們想要的信息。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章