原创 2.12網絡請求——requests的使用(發送post請求,使用代理ip,處理cookie信息,處理不信任的ssl證書)

requests發送POST請求 1.最基本的POST請求可以使用post方法: response=requests.post('http://www.baidu.com/',data=data) 2.傳入data數據: 這時候就不要再

原创 2.11網絡請求——requests庫的基本使用

requests庫 雖然python的標準庫中urllib模塊已經包含了平常使用的大多數功能,但是它的API使用起來讓人感覺不太好,而requests宣傳是“HTTP for Humans”,說明使用更簡潔方便。 安裝和文檔地址: 使用p

原创 2.9網絡請求——爬蟲自動登錄訪問授權頁面

http.cookiejar模塊: 該模塊主要的類有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。這四個類的作用分別如下: 1.CookieJar:管理HTTPcookie值、

原创 2.10網絡請求——cookie信息的加載與保存

保存cookie到本地: 保存cookie到本地,可以使用cookiejar的save方法,並且需要指定一個文件名: #encoding:utf-8 from urllib import request from http.cookie

原创 2.6網絡請求——ProxyHandler實現代理ip

ProxyHandler處理器(代理設置) 很多網站會檢測某一段時間某個IP的訪問次數(通過流量統計,系統日誌等),如果訪問次數多的不像正常人,它會禁止這個IP的訪問。所以可以設置一些代理服務器,每隔一段時間換一個代理,就算IP被禁止,依

原创 2.8網絡請求——爬蟲使用cookie模擬登陸

cookie是指網站服務器爲了辨別用戶身份和進行session跟蹤,而儲存在用戶瀏覽器上的文本文件,cookie可以保持登陸信息到用戶下次與服務器會話。 下面以人人網爲例。人人網中,要訪問某個人的主頁,必須先登陸才能訪問,登陸說白了就是要

原创 機器學習實戰——5.logistic迴歸

目錄 5.1 基於logistic迴歸和sigmoid函數的分類 5.2基於最優化方法的最佳迴歸係數確定 5.2.1 梯度上升法 5.2.2 訓練算法:使用梯度上升法找到最佳參數 5.2.3 分析數據:畫出決策邊界 5.2.4 訓練算法:

原创 2.3網絡請求——參數編碼和解碼

urlencode函數: 用瀏覽器發送請求的時候,如果url中包含了中文或者其它特殊字符,那麼瀏覽器會自動的給我們進行編碼。而如果使用代碼發送請求,那麼就必須手動的進行編碼,這時候就應該使用urlencode函數來實現。urlopen可以

原创 2.1網絡請求——urllib庫

  urlib庫 urllib庫是python中一個最基本的網絡請求庫。可以模擬瀏覽器的行爲,向指定的服務器發送一個請求,並可以保存服務器返回的數據。 urlopen函數: 在python3中的urllib庫中,所有和網絡請求相關的方法,

原创 2.2網絡請求——urlretrieve函數用法

這個函數可以方便的將網頁上的一個文件保存到本地。以下代碼可以非常方便地將百度的首頁下載到本地: from urllib import request request.urlretrieve('http://www.baidu.com/'

原创 機器學習實戰——4.基於概率論的分類方法:樸素貝葉斯

k-近鄰算法和決策樹要求分類器做出艱難決策,給出“該數據實例屬於哪一類”這類問題的明確答案。不過,分類器有時會產生錯誤結果,這是可以要求分類器給出一個最優的類別猜測結果,同時給出這個猜測的概率估計值。 樸素貝葉斯分類器是使用概率論

原创 1.2爬蟲基礎——HTTP協議介紹

http協議和Chrome抓包工具 什麼是http和https協議: HTTP協議:全稱是HyperText Transfer Protocol,中文意思是超文本傳輸協議,是一種發佈和接收HTML頁面的方法。服務端口號是80端口。

原创 2.4網絡請求——urlparse和urlsplit函數用法

urlparse: 有時候拿到一個url,想要對這個url中的各個組成部分進行分割,那麼這時候就可以使用urlparse或者是urlsplit來進行分割。示例代碼: #encoding:utf-8 from urllib import

原创 1.3爬蟲基礎——抓包工具的使用網絡請求

常用的請求方法 : 在Http協議中定義了八種請求方法: 這裏介紹get請求和post請求。 1.get請求:一般情況下,只從服務器獲取數據下來,並不會對服務器資源產生任何影響的時候會用get請求。 2.post請求:向服務器發

原创 1.1爬蟲前奏——什麼是網絡爬蟲(python crawler)

爬蟲的實際例子: 1.搜索引擎(百度、谷歌、360搜索等) 2.伯樂在線 3.惠惠購物助手 4.數據分析與研究(數據冰山知乎專欄) 5.搶票軟件等 什麼是網絡爬蟲: 1.通俗地講:爬蟲是一個模擬人類請求網站行爲的程序,可以自動請求