原创 Python進階三部曲之IO操作

IO編程 文件讀寫 打開文件 open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True) 具體需要查看API,這裏

原创 Python爬取大量數據時防止被封IP

繼續老套路,這兩天我爬取了豬八戒上的一些數據 網址是:http://task.zbj.com/t-ppsj/p1s5.html,可能是由於爬取的數據量有點多吧,結果我的IP被封了,需要自己手動來驗證解封ip,但這顯然阻止了我爬取更多的數據了

原创 Python技術公衆號100天了

公衆號100天了,是個值得一提的日子! 我從2017年10月31日開始做這個公衆號,到今天2018年2月7日,差不多100天時間 。雖然公衆號很早就申請了,但直到去年10月31日,我纔有真正把這個公衆號搞好的打算。 其實剛開始也沒有想到做什

原创 Python的進程

進程 說明:本文是基於Py2.X環境,3.X在我電腦上出了些問題。兩者差別並不大。 Python實現多進程的方式主要有兩種:一種方法是使用os模塊中的fork方法; 另一種是使用multiprocessing模塊。這兩種方法的區別在於前

原创 Python基礎知識兩部曲:二

如果沒有看基礎部分第一章,請前往Python基礎知識兩部曲:一 8.函數 1.定義函數: 使用關鍵字def來告訴python你要定義一個函數 接着指出函數名:如下面函數名是--greet_user ()是必須帶上的,這裏可以可以傳遞一些參

原创 Python基礎知識兩部曲:一

1.起步 2.變量和簡單數據類型 1.變量 message = "hello world python" print(message) 2.命名 1.命名與使用 2.使用變量時避免命名錯誤 3.字符串 1.使用方法修改字符串的大小寫 nam

原创 Python線程與進程的區別

進程的基本概念 概念進程就是一個程序在一個數據集上的一次動態執行過程。 進程一般由程序、數據集、進程控制塊三部分組成。我們編寫的程序用來描述進程要完成哪些功能以及如何完成;數據集則是程序在執行過程中所需要使用的資源;進程控制塊用來記錄進程的

原创 Python分佈式進程

分佈式進程: 分佈式進程是指的是將Process進程分佈到多臺機器上,充分利用多臺機器的性能完成複雜的任務。在Thread和Process中,應當優選Process,因爲Process更穩定,而且,Process可以分佈到多臺機器上,而Th

原创 Python爬蟲:認識urllib/urllib2以及requests

首先說明一下我的爬蟲環境是基於py2.x的, 爲什麼用這個版本呢,因爲py2.x的版本支持的多,而且一般會使用py2.x環境,基本在py3.x也沒有太大問題,好了,進入正題! urllib 與 urllib2 urllib與urllib2是

原创 Python技術公衆號100天了

公衆號100天了,是個值得一提的日子! 我從2017年10月31日開始做這個公衆號,到今天2018年2月7日,差不多100天時間 。雖然公衆號很早就申請了,但直到去年10月31日,我纔有真正把這個公衆號搞好的打算。 其實剛開始也沒有想到做什

原创 Python爬取大量數據時防止被封IP

繼續老套路,這兩天我爬取了豬八戒上的一些數據 網址是:http://task.zbj.com/t-ppsj/p1s5.html,可能是由於爬取的數據量有點多吧,結果我的IP被封了,需要自己手動來驗證解封ip,但這顯然阻止了我爬取更多的數據了

原创 Python爬蟲寫在前面

不知道大家有沒有和我一樣的想法,最開始學習Python的興趣就是爲了爬蟲,爬一些好看的妹子圖片... 恩,準備進入正題了!最近一段時間沒有怎麼更新公衆號,主要就是在做爬蟲教程的一些準備工作,看看爬蟲需要用到那些技術,然後做個計劃出來,確

原创 爲什麼要學習Python及Python環境安裝

爲什麼要學習Python Python十分強大,學習python理由我就列舉如下幾條: 可以做服務器後臺 可以做自動化工具 可以網絡爬取數據 可以做web網站 可以進行數據分析 可以人工智能研究 個人以前學的東西太雜了:Android

原创 Python爬蟲:現學現用Xpath爬取豆瓣音樂

爬蟲的抓取方式有好幾種,正則表達式,Lxml(xpath)與Beautiful,我在網上查了一下資料,瞭解到三者之間的使用難度與性能 三種爬蟲方式的對比。 抓取方式 性能 使用難度 正則表達式 快 困難 Lxml 快 簡單

原创 Python的線程

本文是基於Py2.X 線程 多任務可以由多進程完成,也可以由一個進程內的多線程完成。 我們前面提到了進程是由若干線程組成的,一個進程至少有一個線程。 多線程類似於同時執行多個不同程序,多線程運行有如下優點: 可以把運行時間長的任務放到