有時也叫Crawler。
今天整理電腦文檔的時候發現很早09年初自己寫的一個crawler的設計文檔, 打開這個50多頁的文檔,裏邊N多的邏輯圖及規範定義的數據結構, 才覺得真的好久沒有見過寫得那麼規範的文檔了(也許有點自誇, 或者碼農都覺得自己的就是規範: )
將其中的總體設計圖分享給大家參考,確切的說,並不是一個完整的crawler,而是一個連通性檢查模塊,所以當中更增加了很多定製化的邏輯。
該設計中嚴格地區分了數據流及過程,也算是設計圖中的一種創新了。
設計時參考了Ming the Web: Discovering Knowledge from Hypertext Data》中的Crawler, 其中完整架構如下:
此處也向大家推薦這本書《Ming the Web: Discovering Knowledge from Hypertext Data》,裏邊對於從spider 索引建立,ranking,檢索過程等搜索引擎相關的技術都有深入淺出的介紹, 特別適合從事互聯網,特別是搜索的同學。
參考文檔:
Ming the Web: Discovering Knowledge from Hypertext Data
也可關注微博: weibo.com/dustinsea
或者直接訪問http://semocean.com