垂直搜索技術主要分爲兩個層次:模板級和網頁庫級。
模板級是針對網頁進行模板設定或者自動生成模板的方式抽取數據,對網頁的採集也是針對性的採集,適合規模比較小、信息源少且穩定的需求,優點是快速實施、成本低、靈活性強,缺點是後期維護成本高,信息源和信息量小。
網頁庫級就是在信息源數量上、數據容量上檢索容量上、穩定性可靠性上都是網頁庫搜索引擎級別的要求,和模板方式最大的區別是對具體網頁不依賴,可針對任意正常的網頁進信息採集信息抽取……。這就導致這種方式數據容量上和模板方式有質的區別,但是其靈活性差、成本高。當然模板方式和網頁庫級的方式不是對立的,這兩者對於垂直搜索引擎來說是相互補充的,因爲技術只是手段,目的是切反用戶之需
http://www.demix.cn/h?z=27176