原创 python自定義模塊打包、安裝、卸載總結

前言 在寫項目級別的工程時候,需要將常用的函數封裝成一個工具文件中,作爲一名數據仔,通常只是寫寫腳本,而且寫腳本額位置也不是很固定,這個時候怎麼辦呢?怎麼能夠一勞永逸呢?怎麼能隨心所欲的import呢? 那麼,這個時候,你需要把你

原创 pandas多列合併成一列

前言 一入數據深似海,從此頭髮是路人。作爲一個半路出家的學生,小弟當初是想做一名開發的,然而陰差陽錯下,解除了數據分析這個工作,從此便愛上了這個讓我禿頭的行業(虛僞的說。) 數據分析有四個步驟,數據獲取——>數據處理——>數據分析

原创 python3爬蟲攻略:selenium+phantomjs二進宮

一:前言 上一篇文章講了下selenium+phantomjs進行簡單模擬網站登錄,這一篇我們就在深入一下,講一下selenium其他相關的東西。(selenium很強大,而在下也只是個菜雞,所以有不足的還請各位老鐵指正,咱們共同進步。)

原创 python爬蟲攻略:selenium+phantomjs初探

一:前言 requests雖然功能強大,但遇上JavaScript動態渲染過的html頁面還是有一定的侷限,這是後如果你機器強大,而且爬取數據量不是太大的話,你或許可以考慮一下selenium+phantomjs來針對那些需要登錄,並且是

原创 pandas數據分析前傳

一:前言 2017年11月17日,在下作爲一個即將畢業的大四學生,踏上了找實習工作的旅程。在下深知自己的編程實力,所以起初只想找一家小公司鍛鍊一下自己,工資低點無所謂,結果事與願違,實習工資兩千的小公司,居然也有許多名校學生,爭相向前,這

原创 pandas數據分析:正傳

一:前言 作爲一個有着良好python基礎的菜雞,以前在下研究過很多python的第三方庫,參加工作後,pandas就成了許多當中的唯一了。 幸好有python基礎,因此在組長的調教之下,在下很快就掌握了工作中需要用到的panda

原创 python3:csv的讀寫

前言 快要畢業那會兒,在下編寫了一個招聘網站招聘崗位的爬蟲提供給前女神參考,最開始我是存到mysql中,然後在到處一份csv文件給前女神。到了參加工作後,由於經常使用excel繪製圖表(誰叫公司做報表全用excel呢…………….),在下才

原创 ubuntu定時執行任務

前幾天女神給我發了條消息,“爲什麼我每天早上九點都會收到你給我發的天氣信息的郵件?”然後…… 當然,我是不可能告訴她,我是用crontab來定時執行python腳本滴! 好了,廢話不多說,直接進入正題! ubuntu定時執行任務 cr

原创 mongodb創建索引

索引的目的是爲了提升查詢速度,mongodb中也支持索引。 mongodb的shell同時又是js的編譯器,所以我們可以用JavaScript語句模擬存入大量數據。 爲了驗證索引的快速,我們先模擬插入十萬條數據 for(i=0;i<

原创 pandas去除列名中的特殊符號

去除pandas列名中的單雙引號,空格 前段時間,公司推送的csv文件,列名中出現了單雙引號,甚至是空格,這對pandas導入數據庫來說,引起了很大的不便,後來發現,把列名中出現的單雙引號和空格去掉其實很簡答,一行代碼就可以搞定。 df

原创 python3爬蟲攻略(9):requests的使用

Requests 唯一的一個非轉基因的 Python HTTP 庫,人類可以安全享用。 Requests繼承了urllib的所有特性。 Requests支持HTTP連接保持和連接池,支持使用cookie保持會話,支持文件上傳,支持自動

原创 python3爬蟲(8):異常處理以及代理的使用

當我們使用urlopen發出一個請求的時候,如果urlopen不能處理這個response,就會產生錯誤。 一次我們這裏就要講到URLError和HTTPError,以及對他們的處理。 URLError 產生的原因主要有: 1:沒有網

原创 ubuntu下讓python腳本可直接運行

我們還是以那個翻譯程序爲例子,上次給各位老鐵講了在windows下的應用程序打包,這一次給各位老鐵講一講,在linux下爲python文件可以自己執行,從而不需要python xxx.py。 很簡單,在python源文件最上面添上下面一句

原创 centos6修改yum源

安裝centos後,爲了更好、更快捷的安裝軟件通常要添加國內的yum源,這時候阿里雲的源則成了我們的首選。 一:備份你的原鏡像文件,以免出錯後可以恢復 mv /etc/yum.repos.d/CentOS-Base.repo /etc/y

原创 git連接遠程倉庫(github)

Git是分佈式版本控制系統,同一個Git倉庫,可以分佈到不同的機器上。 gitHub是一個面向開源及私有軟件項目的託管平臺,因爲只支持git 作爲唯一的版本庫格式進行託管,故名gitHub。 找工作的時候在簡歷上附上github開源項