《精通Python網絡爬蟲》理論基礎篇1-2

原創

KKK_Kiral

2020-02-21 13:30

第1章什麼是網絡爬蟲

1.1爲何學習網絡爬蟲

（1）定製一個個性化的搜索引擎

搜索引擎離不開爬蟲，例:百度（百度蜘蛛BaiduSpider）360(360Spider) 搜狗（SougouSpider）必應（BingBot）

（2）數據分析

（3）優化搜索引擎

（4）工作生計

（5）興趣愛好

1.2網絡爬蟲的組成

網絡爬蟲由控制節點，爬蟲節點，資源庫構成。

控制節點：爬蟲的中央控制器，根據URL地址分配線程，調用爬蟲節點具體爬行。

爬蟲節點：應用相關算法，對網頁進行具體爬行。

資源庫：將爬蟲節點爬行結果存儲到對應的資源庫中。

1.3網絡爬蟲類型

爬蟲類型	具體說明
通用網絡爬蟲	爬行目標數據巨大，範圍廣
聚集網絡爬蟲	目標網頁是定位與主題相關網頁
增量式網絡爬蟲	只爬取內容發生變化的網頁
深層網絡爬蟲	爬取深層頁面

註明：在互聯網中，網頁按存在方式分類，分爲表層頁面和深層頁面。

（1）表層頁面，不需要提交表單，使用靜態鏈接到達的靜態頁面。

（2）深層頁面，需提交表單，才能獲取的頁面。

（3）深層網絡爬蟲最重要的部分是填寫表單，以爬取深層頁面。

1.4聚焦爬蟲

- 聚焦爬蟲的具體工作流程（爬取與主題相關的網頁）

（1）控制中心，負責對整個爬蟲系統進行管理和監控。

（2）首先初始的URL集合傳遞給URL隊列。

（3）頁面爬行模塊會根據URL地址進行頁面爬取，將爬取相應內容傳到頁面數據庫中存儲。

（4）在爬行過程中會產生新的URL。

（5）此時鏈接過濾模塊過濾無關鏈接。

（6）剩下的URL根據主題使用鏈接評價模塊或內容評價模塊進行優先級排序，再次傳送URL隊列。

（7）另一方面，將頁面數據庫中的爬取到的頁面進行分析處理，放入索引庫中。

（8）用戶檢索對應信息，可得對應結果。

第2章網絡爬蟲技能總覽

2.1網絡爬蟲技能縱覽圖

2.2搜索引擎核心

爬蟲與搜索引擎密不可分。

下圖所示搜索引擎的核心工作流程。

（1）搜索引擎利用爬蟲模塊（控制器，爬行器）從互聯網爬取相應網頁存儲至原始數據庫中。

（2）對原始數據庫中數據進行索引（相當於索引器給數據起名字），並存儲到索引數據庫中。

（3）用戶交互檢索信息，檢索器會從索引數據庫中獲取數據進行相應的檢索處理。

（4）同時，用戶輸入信息會被存儲到用戶日誌數據庫中。

（5）用戶日誌數據庫中的數據會交給日誌分析器進行處理。

（6）日誌分析器會根據大量的用戶數據去調用原始數據庫和索引數據庫，改變排名結果或進行其他操作。

KKK_Kiral

發佈了148 篇原創文章 · 獲贊 113 · 訪問量 21萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

《精通Python網絡爬蟲》理論基礎篇1-2

第1章什麼是網絡爬蟲

1.1爲何學習網絡爬蟲

1.2網絡爬蟲的組成

1.3網絡爬蟲類型

1.4聚焦爬蟲

第2章網絡爬蟲技能總覽

2.1網絡爬蟲技能縱覽圖

2.2搜索引擎核心

lightdb hash index的性能和限制

Win10下的一些常用快捷鍵

大佬們喜歡用宏定義的原因吧

《Python編程從入門到實踐》-基礎知識補充

Chrome快捷鍵

《精通Python網絡爬蟲》理論基礎篇1-2

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結