原创 Python之爬蟲urllib(一)

目錄 本節介紹的信息內容  包含模塊 網頁編碼問題解決 urlopen 的返回對象(在例子中指的是rsp) 包含模塊 urllib.request: 打開和讀取urls urllib.error: 包含urllib.request產生的常

原创 Python之Mail編程(電子郵件編程)

電子郵件的歷史起源 1969 Leonard K. 教授發給同時的 “LO” 1971 美國國防部自主的阿帕網(Arpanet)的通訊機制 通訊地址裏用@,  1987年中國的第一份電子郵件  “Across the Great Wall

原创 Python之爬蟲urllib(二)-request.data

目錄 request.data 的使用 案例1:  案例2:  案例3:  request.data 的使用 訪問網絡的兩種方法 get:  利用參數給服務器傳遞信息, 參數爲dict,然後用parse編碼 案例1 post 一般向

原创 Python之爬蟲--ProxyHandler(代理服務器)

       根據上一篇博文User Agent已經設置好了,但是還應該考慮一個問題,程序的運行速度是很快的,如果我們利用一個爬蟲程序在網站爬取東西,一個固定IP的訪問頻率就會很高,這不符合人爲操作的標準,因爲人操作不可能在幾ms內,進行

原创 Python之爬蟲--UserAgent(用戶代理)

有一些網站不喜歡被爬蟲程序訪問,所以會檢測連接對象,如果是爬蟲程序,也就是非人點擊訪問,它就會不讓你繼續訪問,所以爲了要讓程序可以正常運行,需要隱藏自己的爬蟲程序的身份。此時,我們就可以通過設置User Agent的來達到隱藏身份的目的,

原创 Python之爬蟲-- cookie & session(二)

這一片是繼 《Python之爬蟲-- cookie & session》這一篇之後在網上找到的一篇小練習,也是對cookie有更深的認識 一、爲什麼要使用Cookie     Cookie,指某些網站爲了辨別用戶身份、進行session跟

原创 Python之爬蟲-- cookie & session

目錄 cookie & session cookie和session的區別 session的存放位置 使用cookie登錄 利用cookiejar訪問人人, 案例3 cookie的保存-FileCookieJar, 案例5 cookie的

原创 Python之爬蟲-- SSL

SSL SSL證書就是指遵守SSL安全套階層協議的服務器數字證書(SercureSocketLayer) 美國網景公司開發 CA(CertifacateAuthority)是數字證書認證中心,是發放,管理,廢除數字證書的收信人的第三方機

原创 安裝Python之後pip 和pip3的區別

安裝了python3之後,庫裏面既會有pip3也會有pip  使用pip install XXX  新安裝的庫會放在這個目錄下面  python2.7/site-packages  使用pip3 install XXX  新安裝的庫

原创 Python之爬蟲urllib(三)-urllib.error

 目錄 urllib.error 案例1 : 案例2:  urllib.error (用 request.openurl() 都應該放在 try 中)  URLError產生的原因: 沒網 服務器鏈接失敗 找不到指定服務器 是OSErr