python爬蟲從入門到放棄(一)- 認識爬蟲

什麼是爬蟲

百度百科裏的解釋是這樣的:

網絡爬蟲(又被稱爲網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱爲網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

爬蟲就是一種可以按照一定規律,自動抓取信息的程序或腳本。

再簡單一點就是:智能獲取網頁中信息的工具。

爬蟲可以幹什麼

“萬物皆可爬”

文本、音頻、視頻、圖片、、、、、等等.

爬蟲怎麼工作

我們在瀏覽網頁的時候,有一個基本的流程如下:

用戶輸入網址 ,經過DNS服務器,找到服務器主機,向服務器發出一個請求,服務器經過解析之後,發送給用戶的瀏覽器 HTML、JS、CSS 等文件,然後瀏覽器解析出來將 HTML、JS、CSS 等文件中包含的信息彙總起來展示給用戶。

PS:這裏的信息就可以分爲有用信息和無用信息,如果你想爬取的是知乎上某電影的評論內容,那評論的文本對於你就是有用信息,而評論框的樣式等信息就對你是無用信息。

OK,現在瞭解了瀏覽網頁的基本流程之後,可以得出一個結論,用戶看到的網頁實質是由 HTML 代碼構成的。

那爬蟲爬取網頁信息實際上就是在HTML代碼中尋找有用信息,並獲取的過程。

爬蟲通過分析、篩選、過濾HTML代碼中的內容,來獲取我們想要得到的有用信息(文本、音頻、視頻、圖片、、、、、等等)。

URL的含義

URL,即統一資源定位符,也就是我們說的網址,統一資源定位符是對可以從互聯網上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯網上標準資源的地址。互聯網上的每個文件都有一個唯一的URL,它包含的信息指出文件的位置以及瀏覽器應該怎麼處理它。

URL的格式由三部分組成:
①第一部分是協議(或稱爲服務方式)。
②第二部分是存有該資源的主機IP地址(有時也包括端口號)。
③第三部分是主機資源的具體地址,如目錄和文件名等。

爬蟲爬取數據時必須要有一個目標的URL纔可以獲取數據,因此,它是爬蟲獲取數據的基本依據,準確理解它的含義對爬蟲學習有很大幫助。

基本的爬蟲只是的入門就是這些了~

從入門到放棄


作者:Ghost9
來源:CSDN
原文:https://blog.csdn.net/Ghost
9/article/details/80240532

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章