python爬蟲工程師成長之路二爬蟲原理與實現爬蟲

雖說不同的爬蟲原理並不相同，但這些原理中還是會存在許多的共同之處；所以就以通用爬蟲和聚焦爬蟲講解爬蟲的實現原理

獲取初始的URL，初始URL地址可以由用戶直接決定，也可以由用戶指定的網頁決定
根據初始URL爬蟲頁面，爬取相應網頁後將網頁存儲到原始數據庫中，並將已爬取的URL地址存放到一個URL列表中，用於去重和判斷爬取的進程；在爬取過程中也會獲得新的URL，
將獲得的新URL放到URL隊列中
從URL隊列中讀取新的URL中，並根據新的URL爬取網頁，同時從新網頁獲取新的URL，並重覆上訴爬取過程。
滿足設定的停止條件後，停止爬取；若未設定停止條件，則會一直爬取到無法獲取到新的URL地址爲止。

因爲聚焦爬蟲有目的性，所以其對於網絡爬蟲來說，要增加目標的定義和過濾機制。

在爬蟲爬取網頁過程中，在待爬取URL隊列中，先爬取那個URL，後爬取那個URL是由爬取策略決定的。
爬取策略主要有深度優先爬取策略、廣度優先爬取策略、大站優先策略、反鏈策略、其他爬取策略等。下面用一個例子來講訴各個爬行策略
如圖，某個網站有1-6個網頁，不同的爬取策略爬取順序不同

許多網站的網頁會經常更新，在我們爬取的時候也需要根據相應的策略對網站進行優先級排序，在優先記高的網頁更新後將優先爬取。
常見的爬取策略有用戶體驗策略，歷史數據策略，聚類分析策略
用戶體驗策略：在用戶通過搜索引擎查詢某個問題時，會出現許多網頁，但大部分用戶都只會用到排名前面的網頁。所以，在通常情況下，爬蟲服務器會優先更新排名靠前的網頁，這種策略就是用戶體驗策略
歷史數據策略：根據網站的歷史數據來確定對網頁更新的週期
聚類分析策略：將網頁分成不同的類，每類大多屬性相似，其更新頻率也相似，聚類完成後，我們對每類中網頁進行隨機抽取一個樣本，然後求出該樣本的平均值，用其作爲該類的更新頻率

在搜索引擎中，爬取到網頁後會將網頁存儲到服務器的原始數據庫中之後會對每個網頁通過網頁分析算法進行分析並排名，該排名即爲用戶檢索時的排名

基於用戶行爲的網頁分析算法
該算法裏，會根據用戶對網頁的訪問行爲對網頁進行評價，常見的是根據用戶對網頁的訪問頻率、訪問時長、用戶對網頁的單機率等進行中和評價。
基於網絡拓撲的網頁分析算法
該算法通過網頁的鏈接關係、結構關係等網頁數據來對網頁進行分析的，拓撲就是網絡結構關係。該算法可以分爲三種：基於網頁粒度的分析算法，基於網頁塊粒度的分析算法，基於網站粒度的分析算法。
- 基於網頁粒度的分析算法：根據網頁之間的鏈接關係對網頁的權重進行分析並排名，常見的如谷歌的PageRank，HITS等。
- 基於網頁塊粒度的分析算法：根據網頁之間連接關係進行計算，但分析規則有所不同。通常來說，一個網頁會包含多個超鏈接，這些鏈接對網頁的重要程度是有不同層次的；根據這些外部鏈接的層次進行分析、排名網頁。
- 基於網站粒度的分析算法：我們不在具體的對每個網頁進行排名，而是劃分網站的層次或等級。對於基於網頁粒度的算法來說，更加簡單高效，同時精確度不如網頁粒度。
基於網絡內容的網頁分析算法
該算法會依據網頁的內容對網頁進行相應的評價