05Python爬蟲---小結

(1) Urllib是 Python提供的一個用於操作URL的模塊,在 Python2X中,有 Urllib也有Urllib2庫,在 Python3x中 urllib2合併到了 urllib中,我們爬取網頁的時候,經常需要用到這個庫。

(2)一般來說,URL標準中只會允許一部分 ASCII字符,比如數字、字母、部分符號等,而其他的一些字符,比如漢字等,是不符合URL標準的。所以如果我們在URL中使用不符合標準的字符就會出現問題,此時需要進行URL編碼方可解決。比如在URL中輸入中文或者“:”或者“&”等不符合標準的字符時,需要編碼。

(3)當我們無法爬取一些網頁時可能會出現403錯誤,因爲這些網頁爲了防止別人惡意採集其信息進行了一些反爬蟲的設置。

(4)由於 urlopen0不支持一些HTTP的高級功能,所以,我們如果要修改報頭,可以使用 urllib, request. build opener(進行。

(5)我們還可以使用 urllib. request Request下的 add header實現瀏覽器模擬技術。

(6)程序在執行的過程中,難免會發生異常,發生異常不要緊,關鍵是要能合理地處理異常,在 Python爬蟲中,經常要處理一些與URL相關的異常。此時,我們可以使用URL異常處理神器— -Urlerror類進行相應的處理。

(7)我們經常使用try… except語句進行異常處理,在try中執行主要代碼,在 except中捕獲異常信息,並進行相應的異常處理。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章