模板抽取思路的分析

今天看到一篇文章,關於頁面轉化成xml的方式,突然想到nutch的模板匹配問題,因爲第一個頁面,寫匹配方式,及寫一些與此同時過濾真的很沒有效率,所以我打算,擴展nutch的htmlParser這個插件,把nutch只當作一個爬蟲,而索引這塊先不考慮。考慮採用自己建立solr服務器來建立索引。

 

方案:動態代碼-->html-->轉化成xml或xhtml --> XSLT提取

 

然後通過xslt模板來匹配需求採集的部分。這樣如果有目標站點,則可以通過編寫xslt模板來採集相關數據。跑模板的同時建立數據庫關聯,直接把數據存入數據庫中。

 

思路已經形成,接下來時間就準備開發了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章