網絡爬蟲-2(共?):知識框架-及-URL管理器實現

謹以此記錄個人學習過程,以期爲後來者提供一絲半毫之參考。

 

爬蟲構造過程整體框架:

æ详ç»ç¬è«å¥é¨æç¨ï¼è±åå°æ¶ä½ åºè¯¥å°±è½å»ç¬ä¸äºå°ä¸è¥¿äºï¼æ详ç»ç¬è«å¥é¨æç¨ï¼è±åå°æ¶ä½ åºè¯¥å°±è½å»ç¬ä¸äºå°ä¸è¥¿äºï¼

URL管理器:管理待抓取URL集合和以抓取URL集合。防止重複抓取/防止重複抓取

 

URL管理器實現方式:內存/關係數據庫/緩存數據庫

網頁下載器:將URL對應網頁下載到本地的工具。   ||          python中網頁下載器分類:

                    


1.簡單訪問。

2.稍微複雜訪問。data:所需提交的數據。http header:頭信息

3.複雜訪問。

需要登錄才能訪問:HTTPCookieProcessor           需要代理才能訪問:ProxyHandler

https加密訪問:HTTPSHandler                               相互自動跳轉關係:HTTPRedirectHandler

 

以上三種方法運行結果對比:


鳴謝:慕課網:瘋狂的螞蟻crazyant

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章