業餘時間也能學數據分析!這份學習計劃不看可惜

如何在業餘時間學習數據分析?

對一個準備入門數據分析行業的小白來說,這是最直接而首要的問題,每一部分學完能做什麼,如何應用,是一個很大的問題。這樣的學習,很容易未入門就放棄,所以並不建議從啃一本書開始。

有的從實際問題場景入手。這確實是不錯的方式,模擬了一個數據分析問題解決的流程。但對於沒有數據分析經驗的人,特別是不怎麼了解業務的人來說,又會陷入另一種困境:如何提出高質量的問題、找到清晰的分析思路。數據分析的思維是在有經驗之後才能夠養成的,而這種方式要求一開始就具備這種分析的思維,如果不懂業務問題,其實很難有針對性地去分析一個問題。

我們就從數據分析技術和數據分析思維的養成,來談談如何在業餘時間高效學習數據分析。

1、開始用數據玩起來

你可能會疑惑:我什麼都不會,你就讓我玩起來?

不急,我們慢慢來解答。

先找一個數據集,如果工作中有一些現成的數據(用戶數據、銷售數據、產品數據等),是最好的,因爲這些數據跟你的認知高度相關,能讓學習更加有針對性。如果沒有這樣的數據資源,也可以找一些網上的公開數據集。

拿到這些數據,就可以進行一些探索性的分析了。最常見的,就是把這些數據用可視化方式描述出來,最常用的就是 Excel,在把數據轉化成圖像的過程中,可以發現一些數據分佈的特點。

比拿到一個產品的銷售數據,把數據按照時間序列繪製出圖形,那就可以看到銷量與時間、季節、特殊節點之間的關係;當分地區來展示,可以看到產品受不同地區用戶的喜愛程度;當把銷售數據和其他因素結合起來(比如推廣行爲),可以發現這些因素對銷售量的影響。

你看,其實冰冷的數據在進行圖形化的展示之後,可以發現很多基本的規律,這個已經可以得出一些很有用的知識了。

如果不怎麼熟悉 Excel 的話,去了解一些基本圖表的用法,經常用到的也基本是條形圖、折線圖(散點圖)、扇形圖。

業餘時間也能學數據分析!這份學習計劃不看可惜

 

可視化還可以用編程的方式去實現,比如 python裏面的seaborn、matplotlib,R裏面的ggplot2,都是很好的可視化工具。不要以爲很難,這個階段並不需要系統地去學習python或者R,只需要瞭解這些庫的一些基本函數和用法。

比如下面這些圖,在python裏面就是一行命令的事情。

業餘時間也能學數據分析!這份學習計劃不看可惜

 

 

業餘時間也能學數據分析!這份學習計劃不看可惜

 

 

業餘時間也能學數據分析!這份學習計劃不看可惜

 

網上有很多這些可視化工具的教程,跟着做很容易上手,主要是記住具體的函數、方法的使用方式,多聯繫一下就可以了。

當然不是讓你瞎玩,畫幾個圖雖然簡單,但這還遠遠不夠,在畫圖的過程中,需要真正去做一些思考,從這些可視化的圖表中,能夠發現哪些規律,並嘗試輸出一些簡單的結論和報告。

2、好像少了點統計學知識

如果用可視化的形式做了一些探索性的數據分析,那麼你就會發現,得到的知識並不是那麼多。那麼,如何做更加精細化的分析呢?這時候就需要補充一些統計學的知識了。

因爲網上很少有系統的統計學的學習資料,這裏更加推薦去看一些統計學方面的書籍。推薦書:《深入淺出統計學》

通過基本的統計量,可以進行更多元化的可視化,以實現更加精細化的數據分析。這時候也需要去了解更多的Excel函數,來實現基本的計算,或者python、R裏面一些對應的可視化方法。

有了總體和樣本的概念,你就知道在面對大規模數據的時候,怎樣去進行抽樣分析。

也可以應用假設檢驗的方法,對一些感性的假設做出更加精確地檢驗。

利用迴歸分析的方法,可以對未來的一些數據、缺失的數據做基本的預測。

瞭解統計學的原理之後,不一定能夠通過工具實現,那麼需要去對應的找網上找相關的實現方法。

3、數據不乾淨怎麼辦

很多時候我們拿到的數據是不乾淨的,有重複、缺失、異常值等問題。這時候就需要進行數據的清洗,把這些影響分析的數據處理好,才能獲得更加精確地分析結果。

比如空氣質量的數據,其中有很多天的數據由於設備的原因是沒有監測到的,有一些數據是記錄重複的,還有一些數據是設備故障時監測無效的,這時候就需要進行數據預處理。

不同情況要用不同的方法處理,比如殘缺數據,我們是直接去掉這條數據,還是用臨近的值去補全?這都是需要考慮的問題。

對於數據預處理,學會 pandas 的用法,應對一般的數據清洗就完全沒問題了。

網上有很多pandas的教程,主要是一些函數的應用,也都非常簡單,如果遇到問題,可以參看pandas操作的官方文檔。

4、Python大法流弊!

通過pandas,你可能已經意識到,python真是一個神奇的東西。

除了pandas,python還有其他優秀的數據分析、數據挖掘的庫,比如numpy、scipy、scikit-learn,可以去找一些教程來看看,如何通過這些庫實現數據分析。搞清楚最常用的方法,結合實際的數據集進行練習。並不常用的方法,可以在遇到具體問題時,再去查閱相關的文檔。

比如利用numpy進行數組的計算,利用scipy實現不同的假設檢驗,利用scikit-learn實現完整的數據分析建模……網上有很多教程,也可以去看書,推薦一本:《利用Python進行數據分析》

業餘時間也能學數據分析!這份學習計劃不看可惜

 

前期並不建議追求各種高深的技巧,你更需要去熟悉最基本的用法,畢竟基本的纔是最常用到的,常用的方法已經可以解決絕大部分初級階段的數據分析問題。

比如利用迴歸分析(線性迴歸、邏輯迴歸),就可以實現很多的預測型的數據分析,對未來的數據進行預測。

當然,如果是小白,還需要去了解一些python的基礎知識,比如變量、基本元素等。如果對python無感,那麼R語言也完全可以幫助你解決數據分析問題。

5、SQL打開新世界的大門

在應對萬以內的數據的時候,Excel對於一般的分析沒有問題。一旦數據量大,就會力不從心,打開文件都會是個問題。數據庫能夠很好地解決這個問題,而且大多數的企業,都會以SQL的形式來存儲數據。如果你是一個分析師,也需要懂得SQL的操作,能夠查詢、提取數據。

SQL作爲最經典的數據庫工具,爲海量數據的存儲與管理提供可能,並且使數據的提取的效率大大提升。當然如果面對的是不那麼大的數據,pandas等工具已經夠你用了,那也可以暫時不瞭解SQL這一塊相對獨立的知識。

業餘時間也能學數據分析!這份學習計劃不看可惜

 

6、數據分析的思維

如果對業務本身有一定了解,那麼你可能在數據思維的養成方面會更加有優勢,知道哪些因素、數據是相對重要的。可以在分析中更加容易地找出重要的問題,也能夠更清楚應該從哪些方面入手,這就是問題定義的過程。這是數據分析第一個步驟,往往要經過很多的實戰訓練才能養成。

開始的時候,可能考慮的問題不是很周全,但隨着經驗的積累,慢慢就會找到分析的方向,有哪些一般分析的維度。比如top榜單、平均水平、區域分佈、年齡分佈、相關性分析、未來趨勢預測等。隨着經驗的增加,會有一些自己對於數據的感覺,這就是我們通常說的數據思維了。

如果想去獲取互聯網的一些數據,也可以學學爬蟲的一些技能,基於互聯網的數據,可以做很多的市場調研和輿情分析。

7、通向更高的維度

如果並不滿足做基礎的數據分析,甚至想做一些數據挖掘、機器學習的事情,那麼還需要學習更多的知識。瞭解更高級的數據挖掘算法,比如決策樹、隨機森林、神經網絡等等。光了解算法還不夠,還需要知道如何進行模型的優化,如何通過特徵工程、模型融合提升預測的精確度。

這就有點數據挖掘和機器學習的味道了。可以根據職業發展來選擇具體的方向,如果在編程、算法上面比較有興趣,那麼可以向更深入的機器學習方向發展;如果更想往業務方向靠攏,以數據分析來支撐商業決策,那麼可以深化這方面的能力,甚至去考慮做一些自動化分析的事情。

總的來說,學習的動力源於反饋。在碎片化學習的時候,尤其注意,每個學習過程都應該是有具體的目的導向的。也需要考慮,學習這個知識點,最終想輸出的東西是什麼?每個階段只學習最需要的那部分知識,這樣可以很大程度上地提升學習效率。

發佈了424 篇原創文章 · 獲贊 2872 · 訪問量 91萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章