一,URL管理器
1,功能:管理待抓取URL集合和已抓取URL集合
--防止重複抓取,防止循環抓取(如果兩個URL互相指向,將造成死循環)
2,實現方式
注:大型公司用的都是緩存數據庫(高性能)
MySQL中的is_crawled是判斷是否爲待爬取的URL
小型的用Python內存即可
二,網頁下載器
1,功能:將互聯網上URL對應的網頁下載到本地的工具
2, Python的網頁下載器
一,URL管理器
1,功能:管理待抓取URL集合和已抓取URL集合
--防止重複抓取,防止循環抓取(如果兩個URL互相指向,將造成死循環)
2,實現方式
注:大型公司用的都是緩存數據庫(高性能)
MySQL中的is_crawled是判斷是否爲待爬取的URL
小型的用Python內存即可
二,網頁下載器
1,功能:將互聯網上URL對應的網頁下載到本地的工具
2, Python的網頁下載器
去megaton裏面的屍鬼.那裏買藥, 把破爛賣給他. 然後傳送到其他地圖, 再傳送回來, 他就又有錢和新藥了.繼續賣破爛, 買藥.刷幾次就夠了.