數據工具的使用心得

本人一般處理數據,運用的工具主要是excel, sql(主要是MySQL), python+pandas+scikit-learn, 至於數據可視化方面側用PPT or matplotlib,以上幾樣工具都會貫穿使用,最主要是工作使用上要順手,效率要高。若果想一樣工具用到底,這個貌似還不太現實,畢竟每一樣工具都有各自擅長的領域。

各個工具的優缺點簡單說一下:

Excel:微軟頂頂大名的工具。這個工具每個職場人都會用,但用得水平如何,就差距十分巨大了。

優點:上手簡單、有圖形界面、親和力強,功能強大(如函數,數據透視),學習成本較低。

缺點:處理大量數據時略顯乏力。3萬行的數據(就當只有2列,3萬行數據),用vlookup函數處理匹配,這個就已經夠痛苦。

sql(MySQL):通常用這個,基本上在企業裏面要有數據庫的權限,能夠直接連接數據庫,那是最好的。當然一般穩妥起見,都是隻有select 的權限,增刪改的權限一般針對數據人員是不開放的。而且通常都是與Navicat等圖形編譯工具搭配使用。當然,還有部分諮詢公司、外企會用Access,但Access有部分sql語法不支持,所以我用較少。sql工具作爲查詢、提取的話還是十分好用的。

優點:快!快!快!

缺點:有一定學習成本,當然自學也不是不可能。建議可以上w3school自學也可。對於很多非科班出身的數據人員來說,其實只要做到查詢就足夠了,太深澳的或者追求時間上的優勢而花大功夫,有點得不償失,畢竟優化select這個本身就不是件容易的事。

python+pandas:python+pandas(再加上sqlalchemy)基本上也是可以替代mysql的一個工具,但是我本人測試了,如果比拼速度,還是mysql的查詢速度更快,不知是否因爲mysql是用c寫,而python是編譯語言的緣故。對於想速成的人來說,學少一樣sql,但學另一樣功能更強大的python+pandas也未償不可,通過ORM方法,將表、行映射成類、對象也是很好上手的。

優點:運算功能十分強大,有豐富的第三方包,如scikit-learn、scipy等,可以做更高階的數據科學分析統計。

缺點:學習成本最高,雖然現在很火,但依然缺少中文材料,而且現有的中文書藉還會有bug(爲什麼我知道sqlalchemy?就因爲我在這上面踩過坑,pandas的某些讀寫功能就只支持sqllite3或者sqlalchemy,有些書卻忽略了。。。orz)所以這個時候覺得英語差,但又想往數據發展的同學真要刻服一下,畢竟現有技術都是外國的,啃啃英語也是有道理的。

至於可視化方面,用得最多就是ppt和excel裏自帶的圖形功能,而matplotlib則比較少用。首先,圖形可視化需要美觀,這方面matplotlib在這方面要做到如微軟的產品一樣,會比較吃力。但是如果是爲了通過圖形快速分析獲得結果,則matplotlib是首選。你想啊,我數據都做好了,就差一個圖,如果是自己看的話,我直接出圖不是更快麼?

之後就會進入正題:數據分析實戰!

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章