原创 裝飾器應用之校驗代理IP

使用代理IP,是數據爬取過程中最常用的反爬手段之一。 有經費的,可以訂購代理ip提供商的套餐使用,沒有的也不擔心,許多網站通常都提供了較多的免費代理來吸引客戶。我們可以抓取這些免費的代理,來構建自己的代理IP池。 將代理抓取到本地

原创 裝飾器應用之統計程序的運行時間

在做性能優化時,我們往往會統計程序的運行時長,以此作爲優化好壞的依據之一。 一般做法是,在程序運行前得到一個開始時間,在程序主體結束後再得到一個結束時間,計算兩者差值,得到運行時長。如下: import time def test

原创 【linux系統故障】- Error getting authority: Error initializing authority: Could not connect: No such file

1、報錯圖示 2、報錯翻譯 獲取權限時出錯:初始化權限時出錯:無法連接:沒有這樣的文件或目錄 3、原因分析 重啓後,自動掛載某個分區時失敗導致無法正常進入系統 4、解決辦法 輸入root密碼,進入shell journalct

原创 【linux系統故障】-網卡消失

當服務器異常關機,再次重啓時,可能會出現網卡消失的情況,這時往往無法進行遠程操作,這裏介紹重啓網卡的解決辦法。 系統環境:centos 7.3 1、 接入顯示器,進入系統 2、 ip addr 查看當前網絡情況,此時一般只會顯示1

原创 【python實用特性】- zip函數

zip: python的打包函數,可將兩個或兩個以上的可迭代對象按下標對應打包爲一個個元組,得到一個新的以元組爲元素的可迭代對象。 實例如下: 打包 t1 = [1,2,3,4] t2 = [5,6,7,8] t3 =

原创 requests使用session保持會話

在上一篇requests使用cookie模擬登陸豆瓣中,雖然使用cookie成功登錄了,卻存在一個問題,那就是會話不能保持,每個請求都得加上cookie進行身份驗證,爲了解決這一問題,需要使用另一種會話技術——session。 s

原创 python自動化—robobrowser模擬登陸

簡介: 簡單來說,robobrowser是一個輕量級的瀏覽器,自動測試庫,和selenium類似,但運行比selenium更爲隱蔽,因爲它不會打開瀏覽器頁面。如果之前的爬蟲中你有使用過requests和bs4,那robobrows

原创 requests使用cookie模擬登陸豆瓣

cookie: 一種客戶端會話技術,客戶登錄成功後,服務端將可識別用戶的憑證傳到客戶端,由客戶端負責保存維護。一般會設定一定有效時長,在有效時長內,客戶無需再次進行登錄操作,可直接攜帶cookie登錄。 本文僅演示攜帶cookie

原创 【Matplotlib】-自定義座標軸刻度完成20萬+數據的可視化

需求: 拉取指定時間段的虛擬機監控數據,畫使用率趨勢圖。 數據樣式:[監控項名稱,值,時間戳] 數據總量/條: 20萬+ /天 拉取這裏就不做敘述了,着重說下可視化部分遇到的問題。 問題1: 原先將時間戳轉爲文本格式,使用時間(時

原创 Centos7升級python到python-3.6.8

前言: Centos7自帶的python版本爲python2.7.5,而現在python3.x版本的使用已成爲趨勢,所以將其升級至pyhton-3.6.8版本。 一、準備工作 當前版本查看 [root@localhost ~]

原创 requests設置請求頭、代理

1、設置請求頭User-Agent   目的: 僞裝爲瀏覽器請求 僞裝前 import requests resp = requests.get('https://www.baidu.com') print(resp.requ

原创 【Scrapy爬取實例】- 爬取鏈家網指定城市二手房源信息

文章目錄一、網站分析二、抓取思路三、關鍵代碼四、抓取結果(部分) 一、網站分析 鏈接分析 城市鏈接 北京:https://bj.lianjia.com/ershoufang/ 成都:https://cd.lianjia.com

原创 【python實用特性】- 裝飾器

文章目錄1、裝飾器是什麼?有何好處?2、理解裝飾器的前提-高階函數與嵌套函數2.1 高階函數2.2 嵌套函數3、函數裝飾器3.1 無參數3.2 被裝飾的函數帶參數3.3 裝飾器帶有參數4、類裝飾器5、多個裝飾器的執行順序 裝飾器的

原创 python爬取豆瓣Top250-改進版

老版:Python 爬取內容存入Excel實例 這是之前用python2.7寫的,最近看博友評論,因網頁結構調整和python3的普及,代碼運行後報錯、得不到數據。於是,使用python3重寫了一次,順便做下改進。 網頁解析可以去

原创 【python實用特性】- enumerate函數

enumerate: python的內置函數之一,中文意思爲“枚舉”,即將所有元素逐個列舉出來。 如何使用?通過一個簡單的例子瞭解下 1、實例引入,循環打印列表的下標和對應值 循環實現 L = ['jc','yf','xbz'