特定場景的Cralwer

有時也叫Crawler。

今天整理電腦文檔的時候發現很早09年初自己寫的一個crawler的設計文檔, 打開這個50多頁的文檔,裏邊N多的邏輯圖及規範定義的數據結構, 才覺得真的好久沒有見過寫得那麼規範的文檔了(也許有點自誇, 或者碼農都覺得自己的就是規範: )

將其中的總體設計圖分享給大家參考,確切的說,並不是一個完整的crawler,而是一個連通性檢查模塊,所以當中更增加了很多定製化的邏輯。

連通性檢查設計圖

 

該設計中嚴格地區分了數據流及過程,也算是設計圖中的一種創新了。

設計時參考了Ming the Web: Discovering Knowledge from Hypertext Data》中的Crawler, 其中完整架構如下:

crawler

 

此處也向大家推薦這本書《Ming the Web: Discovering Knowledge from Hypertext Data》,裏邊對於從spider 索引建立,ranking,檢索過程等搜索引擎相關的技術都有深入淺出的介紹, 特別適合從事互聯網,特別是搜索的同學。

參考文檔:

Ming the Web: Discovering Knowledge from Hypertext Data

也可關注微博: weibo.com/dustinsea

或者直接訪問http://semocean.com

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章