爬蟲入門(筆記一)

爬蟲入門(筆記一)

  所謂網絡爬蟲,就是一種按照一定的規則自動地抓取萬維網信息的程序或者腳本。一個爬蟲可以大致分爲三個部分:抓取、解析、存儲

  • 抓取,即將含有有用信息、數據的網頁抓取下來。這也是最基本的步驟,因爲只有將網頁抓取了下來纔有後面的步驟纔可以談。

  • 其次是解析,即將網頁中的有用數據提取出來。

  • 最後就是存儲,將提取出來的數據存儲起來方便後續對這些數據的進一步使用。存儲的方式可以是文本形式的存儲,也可以利用數據庫來進行存儲。

  在這一學習筆記中,準備學習的具體部分如下圖所示:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章