《精通Python網絡爬蟲》理論基礎篇1-2

第1章什麼是網絡爬蟲

1.1爲何學習網絡爬蟲

(1)定製一個個性化的搜索引擎

            搜索引擎離不開爬蟲,例:百度(百度蜘蛛BaiduSpider)360(360Spider) 搜狗(SougouSpider)必應(BingBot)

(2)數據分析

(3)優化搜索引擎

(4)工作生計

(5)興趣愛好

1.2網絡爬蟲的組成

網絡爬蟲由控制節點,爬蟲節點,資源庫構成。

這裏寫圖片描述

控制節點:爬蟲的中央控制器,根據URL地址分配線程,調用爬蟲節點具體爬行。

爬蟲節點:應用相關算法,對網頁進行具體爬行。

資源庫:將爬蟲節點爬行結果存儲到對應的資源庫中。

1.3網絡爬蟲類型

爬蟲類型具體說明
通用網絡爬蟲爬行目標數據巨大,範圍廣
聚集網絡爬蟲目標網頁是定位與主題相關網頁
增量式網絡爬蟲只爬取內容發生變化的網頁
深層網絡爬蟲爬取深層頁面

註明:在互聯網中,網頁按存在方式分類,分爲表層頁面和深層頁面。

(1)表層頁面,不需要提交表單,使用靜態鏈接到達的靜態頁面。

(2)深層頁面,需提交表單,才能獲取的頁面。

(3)深層網絡爬蟲最重要的部分是填寫表單,以爬取深層頁面。


1.4聚焦爬蟲

- 聚焦爬蟲的具體工作流程(爬取與主題相關的網頁

這裏寫圖片描述
(1)控制中心,負責對整個爬蟲系統進行管理和監控。

(2)首先初始的URL集合傳遞給URL隊列。

(3)頁面爬行模塊會根據URL地址進行頁面爬取,將爬取相應內容傳到頁面數據庫中存儲。

(4)在爬行過程中會產生新的URL。

(5)此時鏈接過濾模塊過濾無關鏈接。

(6)剩下的URL根據主題使用鏈接評價模塊或內容評價模塊進行優先級排序,再次傳送URL隊列。

(7)另一方面,將頁面數據庫中的爬取到的頁面進行分析處理,放入索引庫中。

(8)用戶檢索對應信息,可得對應結果。

第2章網絡爬蟲技能總覽

2.1網絡爬蟲技能縱覽圖

這裏寫圖片描述

2.2搜索引擎核心

爬蟲與搜索引擎密不可分。

下圖所示搜索引擎的核心工作流程。

這裏寫圖片描述

(1)搜索引擎利用爬蟲模塊(控制器,爬行器)從互聯網爬取相應網頁存儲至原始數據庫中。

(2)對原始數據庫中數據進行索引(相當於索引器給數據起名字),並存儲到索引數據庫中。

(3)用戶交互檢索信息,檢索器會從索引數據庫中獲取數據進行相應的檢索處理。

(4)同時,用戶輸入信息會被存儲到用戶日誌數據庫中。

(5)用戶日誌數據庫中的數據會交給日誌分析器進行處理。

(6)日誌分析器會根據大量的用戶數據去調用原始數據庫和索引數據庫,改變排名結果或進行其他操作。

發佈了148 篇原創文章 · 獲贊 113 · 訪問量 21萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章