網絡爬蟲是怎麼運行的

2.2.1知識概述
網絡爬蟲究竟是怎麼運行的?

單個頁面是如何運行的?

  • 1)指定一個url
  • 2)使用技術發送get請求
  • 3)獲得服務端的響應
  • 4)將二進制的數據,轉化成HTML文檔

網絡爬蟲一般會爬取很多很多很多的頁面
for(){

  • 1)指定一個url
  • 2)使用技術發送get請求
  • 3)獲得服務端的響應
  • 4)將二進制的數據,轉化成HTML文檔

}
2.2.2視頻詳情
網絡爬蟲是怎麼運行的
2.2.3總結與補充

2.2.4課堂提問與練習
運行流程及所需要的技術?
2.2.5習題答案
爬蟲開發的一個技術點:
· 爬蟲中需要一個容器來保存等待爬取的url
· 爬蟲中需要一個技術來模擬http請求
· 爬蟲中需要將二進制數據轉化成html文檔(document對象)
· 爬蟲中需要一個技術從document對象中解析數據
o getElementById/ByTagName
o 解析的數據存放到的哪裏?
§ 保存到數據庫中,其它的任務地方
兩個額外的問題:
等待爬取的url隊列中有重複的元素該怎麼辦? 需要過濾掉
如果一個頁面中包含了其它更多的url,是否要爬取? 根據需求。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章