數據分析工具這麼多,應該用哪個來做分析?
這是很多人在做數據分析的時候,經常會碰到一個問題。尤其是新人剛入門的時候,看到下面的數據分析工具
Excel、sql、spss、python、tableau、powerbi、finebi、R、Hadoop、spark……
可能頭都大了,以爲這些全部都要學。
在數據分析工具的選擇上,我的建議是對症下藥,因地制宜。
根據數據應用的不同環節來看
其實看上圖就已經非常清晰了。每個數據分析工具都有其側重的功能點,在不同的數據應用場景下,選擇合適的工具,能實現效率最大化。
比如在數據獲取時,你可以通過SQL從數據庫中提取數據,也可以通過python爬取數據,但你最起碼要能熟練掌握SQL;
數據處理時,如果數據量不大,其實Excel是最方便快捷的數據處理工具,在大數據量的情況下,SQL和python的使用更爲常見;在大量不可變數據的批處理作業中,hive則最爲合適;
分析建模方面,簡單的分析,Excel、BI工具已經足夠,涉及到建模時,R、SPSS這類專業的統計分析軟件,就更能發揮出優勢,畢竟建模的思維和統計學是強相關的,當然,python也是一個不錯的選擇;
在做可視化時,還是建議各位用專業的可視化工具去做,可視化工具的細分上也有很多,像普通的業務數據分析師和業務人員可以使用常見的BI工具tableau、PowerBI、FineBI等去做,報表工程師更適合選擇專業的報表工具例如finereport,開發人員還可以選擇一些開源的可視化工具例如echart
3大常用工具分析
1、Excel
在很多人眼裏,Excel只是一個辦公軟件,但實際上,大部分人對Excel的認知還不到50%。Excel可以稱得上是最全能的數據分析工具之一,包括表格製作、數據透視表、VBA等等功能,保證人們能夠按照需求進行分析。
當然也有人認爲自己非常精通計算機編程語言,不屑於使用Excel這種工具,因爲Excel不能處理大數據。但換個思維想想,我們在日常中用到的數據是否超過了大數據這個極限呢?而且我們國家中小微型企業佔了大部分,Excel足夠處理絕大多數的數據分析需求。
總結一下,百萬級以下的數據處理、分析,Excel是個不錯的選擇,新人要是想學數據分析,Excel絕對是首選,而且是必選!
2、Python
不可否認的是,python在數據分析領域,確實稱得上是一個強大的語言工具。你可以隨心所欲地寫代碼執行你想要的東西。儘管入門的學習難度要高於Excel和BI,但是作爲數據科學家的必備工具,從職業高度上講,它肯定是高於Excel、BI工具的。
尤其是在統計分析和預測分析等方面,Python等編程語言更有着其他工具無可比擬的優勢。
新人在初入門時可以先不學Python,很多初級崗位甚至用不上Python,但如果想在這條路上長遠發展,它一定是個逃不開的工具。
3、BI工具
BI也就是商業智能,這類工具就是爲數據分析而生的。你會發現BI工具的產品設計,幾乎是按照數據分析的流程來設計的。先是數據處理、整理清洗,再到數據建模,最後數據可視化,全程圍繞數據指導運營決策的思想。由於功能聚焦,產品操作起來也非常簡潔,依靠拖拉拽就能完成大部分的需求,沒有編程基礎的業務人員也能很快上手。
以FineBI爲例
可以通過導入數據集或者連接數據庫,獲取數據
如果需要進行數據處理,點擊創建自助數據集,在自助數據集中可以根據業務邏輯進行過濾、分組彙總、新增數據列、多表合併等數據加工操作,從而實現數據處理、分析、建模聚類等功能,用鼠標就可以完成數據加工操作,不用死記硬背函數公式。
數據處理完畢之後,點擊保存,進入儀表板創建組件,即可進行數據可視化分析,可視化作爲BI工具的重點功能,裏面內置了幾十種可視化圖表模型,非常全面方便。
最後,可以輸出下圖類似的可視化儀表板,用作分析結果分享、報告都很適合。
以上的對比說明了幾個軟件的差別,我想總結的是,存在即合理。Excel\BI\編程語言,這些工具在應用上有交叉重疊的地方,也有互補的地方。對於重疊的地方,無論是哪種工具,只要你能利用它解決你遇到的問題,它就是最棒的。