文章目錄
爬蟲入門(筆記一)
所謂網絡爬蟲,就是一種按照一定的規則自動地抓取萬維網信息的程序或者腳本。一個爬蟲可以大致分爲三個部分:抓取、解析、存儲。
-
抓取,即將含有有用信息、數據的網頁抓取下來。這也是最基本的步驟,因爲只有將網頁抓取了下來纔有後面的步驟纔可以談。
-
其次是解析,即將網頁中的有用數據提取出來。
-
最後就是存儲,將提取出來的數據存儲起來方便後續對這些數據的進一步使用。存儲的方式可以是文本形式的存儲,也可以利用數據庫來進行存儲。
在這一學習筆記中,準備學習的具體部分如下圖所示: