原创 Python之爬蟲urllib(一)
目錄 本節介紹的信息內容 包含模塊 網頁編碼問題解決 urlopen 的返回對象(在例子中指的是rsp) 包含模塊 urllib.request: 打開和讀取urls urllib.error: 包含urllib.request產生的常
原创 Python之Mail編程(電子郵件編程)
電子郵件的歷史起源 1969 Leonard K. 教授發給同時的 “LO” 1971 美國國防部自主的阿帕網(Arpanet)的通訊機制 通訊地址裏用@, 1987年中國的第一份電子郵件 “Across the Great Wall
原创 Python之爬蟲urllib(二)-request.data
目錄 request.data 的使用 案例1: 案例2: 案例3: request.data 的使用 訪問網絡的兩種方法 get: 利用參數給服務器傳遞信息, 參數爲dict,然後用parse編碼 案例1 post 一般向
原创 Python之爬蟲--ProxyHandler(代理服務器)
根據上一篇博文User Agent已經設置好了,但是還應該考慮一個問題,程序的運行速度是很快的,如果我們利用一個爬蟲程序在網站爬取東西,一個固定IP的訪問頻率就會很高,這不符合人爲操作的標準,因爲人操作不可能在幾ms內,進行
原创 Python之爬蟲--UserAgent(用戶代理)
有一些網站不喜歡被爬蟲程序訪問,所以會檢測連接對象,如果是爬蟲程序,也就是非人點擊訪問,它就會不讓你繼續訪問,所以爲了要讓程序可以正常運行,需要隱藏自己的爬蟲程序的身份。此時,我們就可以通過設置User Agent的來達到隱藏身份的目的,
原创 Python之爬蟲-- cookie & session(二)
這一片是繼 《Python之爬蟲-- cookie & session》這一篇之後在網上找到的一篇小練習,也是對cookie有更深的認識 一、爲什麼要使用Cookie Cookie,指某些網站爲了辨別用戶身份、進行session跟
原创 Python之爬蟲-- cookie & session
目錄 cookie & session cookie和session的區別 session的存放位置 使用cookie登錄 利用cookiejar訪問人人, 案例3 cookie的保存-FileCookieJar, 案例5 cookie的
原创 Python之爬蟲-- SSL
SSL SSL證書就是指遵守SSL安全套階層協議的服務器數字證書(SercureSocketLayer) 美國網景公司開發 CA(CertifacateAuthority)是數字證書認證中心,是發放,管理,廢除數字證書的收信人的第三方機
原创 安裝Python之後pip 和pip3的區別
安裝了python3之後,庫裏面既會有pip3也會有pip 使用pip install XXX 新安裝的庫會放在這個目錄下面 python2.7/site-packages 使用pip3 install XXX 新安裝的庫
原创 Python之爬蟲urllib(三)-urllib.error
目錄 urllib.error 案例1 : 案例2: urllib.error (用 request.openurl() 都應該放在 try 中) URLError產生的原因: 沒網 服務器鏈接失敗 找不到指定服務器 是OSErr