謹以此記錄個人學習過程,以期爲後來者提供一絲半毫之參考。
爬蟲構造過程整體框架:
URL管理器:管理待抓取URL集合和以抓取URL集合。防止重複抓取/防止重複抓取
URL管理器實現方式:內存/關係數據庫/緩存數據庫
網頁下載器:將URL對應網頁下載到本地的工具。 || python中網頁下載器分類:
1.簡單訪問。
2.稍微複雜訪問。data:所需提交的數據。http header:頭信息
3.複雜訪問。
需要登錄才能訪問:HTTPCookieProcessor 需要代理才能訪問:ProxyHandler
https加密訪問:HTTPSHandler 相互自動跳轉關係:HTTPRedirectHandler
以上三種方法運行結果對比:
鳴謝:慕課網:瘋狂的螞蟻crazyant