抓取問題

1:按照正則抓取的話,對於大多數同網站的網頁能都抓取,但是對於某一個或某幾個頁面正則匹配失敗,但是正則表達式本身正確,因爲它對其他相同頁面可匹配;等過段時間再次抓取匹配,又匹配成功。

問題:如果在抓取了大量的數據後,突然遇到這種情況,程序崩掉,那麼重新抓取,浪費時間,並且重新可能遇到該種情況;

解決方法:1、對於抓取下來的網頁,對於文本量稍大的話,正則匹配會慢一些,可能會出錯,可以將不相關的源碼文本去掉,同正則只匹配與正則表達式相關的塊源碼文本  

                    2、如果用beautifulsoup第三方包會不會好點


2、對於1出現的問題,如果繼續用正則處理,我們可以將那些理論上能夠抓取到的數據,但是實際上沒有抓取到的,可以先跳過去這些頁面,繼續後面的頁面的抓取,把這些沒有抓取到的頁面的 url 記錄下來,當網站抓取完畢後,再重新抓取這麼記錄下來的 url



多線程

http://www.ibm.com/developerworks/cn/aix/library/au-threadingpython/



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章