抓取問題

抓取問題

原創

2018-08-27 07:14

1：按照正則抓取的話，對於大多數同網站的網頁能都抓取，但是對於某一個或某幾個頁面正則匹配失敗，但是正則表達式本身正確，因爲它對其他相同頁面可匹配；等過段時間再次抓取匹配，又匹配成功。

問題：如果在抓取了大量的數據後，突然遇到這種情況，程序崩掉，那麼重新抓取，浪費時間，並且重新可能遇到該種情況；

解決方法：1、對於抓取下來的網頁，對於文本量稍大的話，正則匹配會慢一些，可能會出錯，可以將不相關的源碼文本去掉，同正則只匹配與正則表達式相關的塊源碼文本

2、如果用beautifulsoup第三方包會不會好點

2、對於1出現的問題，如果繼續用正則處理，我們可以將那些理論上能夠抓取到的數據，但是實際上沒有抓取到的，可以先跳過去這些頁面，繼續後面的頁面的抓取，把這些沒有抓取到的頁面的 url 記錄下來，當網站抓取完畢後，再重新抓取這麼記錄下來的 url

多線程

http://www.ibm.com/developerworks/cn/aix/library/au-threadingpython/

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.