網絡爬蟲如何抓取web2.0 Ajax頁面

伴隨着AJAX/Web2.0的流行,如何抓取Ajax頁面成了搜索引擎急需解決的一個問題,因爲Ajax顛覆了傳統的純HTTP請求/響應協議機制,如果搜索引擎依舊採用“爬”的機制,是無法抓取到AJAX頁面的有效數據的。 AJAX,也就是Asychronous Javascript and XML,由於採用了Javascript驅動的異步請求/響應機制,以往的爬蟲們缺乏Javascript語義上的理解,基本上是無法模擬觸發Javascript的異步調用並解析返回的異步回調邏輯和內容。 另外AJAX的應用中,Javascript會對DOM結構進行大量地變動,甚至頁面所有的內容都是通過Javascript直接從服務器端讀取並動態繪製出來.這個對於”習慣了”DOM結構相對不變的靜態頁面,簡直是無法理解的. 由此可以看出,以往的爬蟲是基於協議驅動的,而對於AJAX這樣的技術,所需要的“爬蟲”引擎必須是基於事件驅動的。要實現事件驅動,首先需要解決下面幾點問題 ●Javascript的交互分析和解釋 ●DOM事件的處理和解釋分發 ●動態DOM內容語義的抽取 至於具體如何去實現,個人覺得Crawling Ajax-driven Web 2.0 Applications這篇論文很有參考價值。有興趣地可以研究研究。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章