python的一些模塊

urllib和urllib2

urllib和urllib2都是接受URL請求的相關模塊,但是提供了不同的功能;

urllib和urllib2 這兩個模塊並不可以互相替補;

urllib2 可以接受一個Request類的實例來設置URL請求的header,urllib僅可以接受URL。這就意味着你不可以僞裝你的User Agent字符串等

urllib提供的urlencode方法用來GET查詢字符串的產生,而urllib2沒有。這就是爲何urllib和urllib2一起使用的的原因。

urllib2擁有很多urllib所沒有的特性:

1、urllib不支持緩存,urllib2支持

2、urllib不支持最後修改時間檢查,urllib2支持

3,、urllib不支持ETag,urllib2支持

4、urllib不支持壓縮,urllib2支持

5、urllib將所有的重定向都當所臨時重定向,urllib2支持區分臨時重定向和永久重定向。(重定向:通過各種方法將各種網絡請求重新定位到其他位置

反正urllib就是一個基本的http庫,而urllib2對http協議的支持更加完善

BeautifulSoup的簡介

Beautiful Soup 是用Python寫的一個HTML/XML的解析器,它可以很好的處理不規範標記並生成剖析樹(parse tree)。 它提供簡單又常用的導航(navigating),搜索以及修改剖析樹的操作。它可以大大節省你的編程時間

簡單來說,BeautifulSoup是python的一個庫,最主要的功能是從網頁抓取數據,官方的解釋如下:

BeautifulSoup提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。它是一個工具箱、通過解析文檔爲用戶提供需要抓取的數據,因爲簡單、所以不需要多少代碼就可以寫出一個完整的應用程序。

BeautifuSoup自動輸入文檔轉換爲Unicode編碼,輸入文檔轉換爲utf-8編碼。你不需要考慮編碼方式,除非文檔沒有指定一個編碼方式,這時BeautifulSoup就不能自動識別編碼方式了。然後,你僅僅需要說明一下原始編碼方式就可以了。

BeautifulSoup已成爲和lxml、html6lib一樣出色的python解釋器、爲用戶靈活地提供不同的解析策略或強勁的速度

python的正則表達式re模塊

正則表達式是一個小巧的,高度專業化的編程語言,它內嵌於python的開發語言中,可通過re模塊使用,

正則表達式使用單個字符來描述、匹配一系列符合某個句法規則的字符串。

Requests模塊

Requests使用的是urllib3,因此繼承了它的所有的特性。Requests支持HTTP連接保持和連接池。支持cookie保護會話,支持文件上傳,支持自動確定響應內容的編碼。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章