什麼是爬蟲
網絡爬蟲是一種自動獲取網頁內容的程序,是搜索引擎的重要組成部分。網絡爬蟲爲搜索引擎從萬維網下載網頁。
其實通俗的講就是通過程序去獲取web頁面上自己想要的數據,也就是自動抓取數據
爬蟲能做什麼
可以自動化爬取你想瀏覽的信息,非常快速方便。
爬蟲的本質是什麼
模擬打開瀏覽器,獲取網頁上我們需要的那部分信息
瀏覽器打開網頁過程:
輸入一個網址後,通過DNS服務器找到服務器主機,向服務器發送請求,服務器解析後發送給瀏覽器結果,包括html、js、css等內容,瀏覽器將信息解析後,把信息呈現給用戶。
所以網頁的信息實際上是在html文件裏的,爬蟲就是獲取這些html文件,並對其中的信息進行篩選,從而得到我們想要的信息。