2.2.1知識概述
網絡爬蟲究竟是怎麼運行的?
單個頁面是如何運行的?
- 1)指定一個url
- 2)使用技術發送get請求
- 3)獲得服務端的響應
- 4)將二進制的數據,轉化成HTML文檔
網絡爬蟲一般會爬取很多很多很多的頁面
for(){
- 1)指定一個url
- 2)使用技術發送get請求
- 3)獲得服務端的響應
- 4)將二進制的數據,轉化成HTML文檔
}
2.2.2視頻詳情
2.2.3總結與補充
無
2.2.4課堂提問與練習
運行流程及所需要的技術?
2.2.5習題答案
爬蟲開發的一個技術點:
· 爬蟲中需要一個容器來保存等待爬取的url
· 爬蟲中需要一個技術來模擬http請求
· 爬蟲中需要將二進制數據轉化成html文檔(document對象)
· 爬蟲中需要一個技術從document對象中解析數據
o getElementById/ByTagName
o 解析的數據存放到的哪裏?
§ 保存到數據庫中,其它的任務地方
兩個額外的問題:
等待爬取的url隊列中有重複的元素該怎麼辦? 需要過濾掉
如果一個頁面中包含了其它更多的url,是否要爬取? 根據需求。