爬蟲基礎(2)

一,URL管理器

    1,功能:管理待抓取URL集合和已抓取URL集合

    --防止重複抓取,防止循環抓取(如果兩個URL互相指向,將造成死循環)

     2,實現方式

    

       注:大型公司用的都是緩存數據庫(高性能)

               MySQL中的is_crawled是判斷是否爲待爬取的URL

               小型的用Python內存即可

二,網頁下載器

    1,功能:將互聯網上URL對應的網頁下載到本地的工具

  2, Python的網頁下載器

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章