python學習筆記——爬蟲4—多線程跑得快的蟲子

爲了爬的更快一點

繼續使用MongoDB

隊列!!!

隊列(queue)是一種具有先進先出特徵的線性數據結構,元素的增加只能在一端進行,元素的刪除只能在另一端進行。能夠增加元素的隊列一端稱爲隊尾,可以刪除元素的隊列一端則稱爲隊首。

設置url的三種狀態:

等待爬取的:outstanding

爬取完成的:complete

正在進行的:processing

失敗的重置爲outstanding

爲了處理url進程被終止的情況,需要設置一個計時參數,當超過這個值時,將狀態重置爲outstanding



-_______未完,留作後面水平上來了補充

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章