轉行數據分析之前,希望你能看看這篇『長文+乾貨』

在這裏插入圖片描述

2020,努力做一個無可替代的人!

長文預警,全篇無代碼,只講小一我在數據分析之路上的心得收穫


前言

最近有朋友問了小一一些關於轉行和入門的問題,問題大概是這樣:

“我想學習數據分析,不知道該從哪開始學,小一你可以帶我嗎?”

“零基礎,想學習數據分析,有好的經驗可以分享嗎?”

在總結大家問題的時候,我不禁想到了兩三年前的自己。

那會兒,小一我也剛步入社會沒多久,自己會的專業技能全是爲後臺開發準備的。

到了部門之後,因爲日常工作更偏數據分析,所以我當時也面臨和大家同樣的問題。疑惑、迷茫、有力使不出來的感覺。

說到這,我的眼角似乎又溼了一片…

現在再來看當時遇到的問題,就有了下面的文章。

文章很長,我真沒想到會寫這麼多內容,寫着寫着就…

可能是自己的踩坑經歷太豐富了,一提起就一發不可收拾。

文章雖長,但重點我都有標註,排版也還算可以,希望能讓你有所得,有所獲。


何爲數據分析?

數據分析這個詞,這個職業其實很久就已經出現,只是在數據量越來越大的今天它的地位也越來越重要,纔會引起大家的關注。

但我還是建議你將這幾個詞一起來看:數據分析、數據挖掘、人工智能和數據科學

真的會有人分不清楚這幾個職位,而且在實際工作中,跨領域幹活的事情更不在少數。

數據分析

先從最簡單的開始說起

從它的字面意思來看:數據分析=數據+分析

首先你得有獲取數據的能力,當你的分析需要某些數據來進行支撐驗證的時候,你得知道這些數據從哪獲取,怎麼獲取

這個獲取說的可不簡單指的是從某個網站下載,從某魚某寶上買;更多指的是你具備這種數據獲取的能力,具備對分析需要的數據類型的判斷。

說到這,你可能要反駁我了:項目進度當然是越快越好,只要能搞到項目所需的數據就行了唄。

你如果能確保你以後項目中需要的數據你都可以通過捷徑搞到手,那沒問題。可問題是,大多數同學可以嗎?

我曾經因爲工作需要爬一批微博的數據,淘寶要價300+,一次性的不包售後。

後來我在網上找的代碼,自己修修補補之後搞定了數據需求,後來領導知道這事發了300獎金給我。

領導好是一個方面,若你將這件事情放在任何一個環境下,你具備這個能力,別的同事不具備,在做項目的時候領導會怎麼對待你?

別跟我提什麼能者多勞的事情,現在的領導都不傻,卸磨殺驢這種事情不是人人都願意去做的。

說完數據我們再來看分析

你要說分析重不重要,小一覺得相當重要!

通過觀察數據提出假設是分析,通過數據指標驗證假設是否成立是分析,通過數據規律進行預測也是分析。

分析是對數據的觀察利用,驗證現有的數據結論,並提出合理的假設預測未來趨勢。當然,這個合理程度和業務有很大關係,我們後面會說到。

總的來說:數據分析的目的是解決問題,通過數據驗證我們提出的假設,並根據數據規律做出相應的預測規劃。

多說一句:對於某些招聘網站上要求數據分析師具備熟悉xxx算法,掌握xxx模型的能力,我只勸你一句,若你具備它所說的能力,往下翻,把你的定位放在下面兩個,你值得更好的。


數據挖掘

這個話題我說不了多少,資歷不夠我還是知道的,如果有些地方您覺得我說的不對,您就當我在瞎瘠薄說。

直接說說它和上面一個的區別吧。

如果說數據分析最後會對數據規律進行預測分析,那隻能說這種預測,是很有限的。

但是數據挖掘不一樣,有數學理論支撐,有大量數據集進行驗證,準確率和信服度還是挺高的。

要說和數據分析最大的區別,那肯定就是各自的目的了。

數據挖掘的目的是通過大量數據樣本,挖掘數據之間的內在關聯,預測未來時間的數據變化。

最明顯的區別就是數據分析更注重已知信息的分析,數據挖掘更注重未知信息的挖掘

如果說你現在是一個數據分析師,或者準備轉行做數據分析師,那我建議你最好能夠將你的目標定位放在這,數據挖掘上。

數據挖掘可以轉數據分析,但是數據分析不一定能轉數據挖掘。當然也沒有數據挖掘師這麼傻去轉數據分析。

人工智能

這個話題就泛泛而談了

就目前社會的科技發展來看,人工智能的前景很大。

基本上語音識別、圖像識別、機器人、自然語言處理、智能搜索這些領域都屬於人工智能。

但是記住一點:人工智能必須具備數據挖掘能力,其次是機器學習、深度學習這些你也得會。

這裏又提到了兩個方向:機器學習和深度學習。不理解的話你暫且就把它當成另一個數據挖掘來看。

數據科學

最後是數據科學,這個詞,聽着好像很高大上,其實人家本來就很高大上啦。

對於這個學科我建議你這樣理解:

Python 中有一個包叫Pandas,是專門進行數據處理的

同樣,還有這樣一個包叫Scikit-learn,是進行數據挖掘的

還有像爬蟲、可視化Seaborn|matplotlib、線性代數scipy、深度學習keras 等等這樣的包,數據科學都涵蓋進去了。

ok,數據科學就是一個涵蓋數據處理、可視化、數據挖掘、深度學習等這些內容的學科**,理解就好。**




數據分析的流程是什麼?

想必對很多同學,尤其是還在學校的同學來說,會對這個問題比較感興趣。

那麼在實際工作中,一個數據分析項目,它的實現流程究竟是怎樣的?

小一我翻了下這兩三年自己在工作中遇到的大小項目,並且和同事進行了充分的交流,差不多總結了六個步驟。

分析業務指標,明確數據內容

很驚訝吧,第一個竟然是這個。

在實際遇到一個項目的時候,往往領導給你的任務,是一個大的目標,比如:

**領導:**小一啊,我們這個月比上個月的用戶投訴略有增多,你來分析一下是什麼原因,順便預測一下下個月我們應該重點抓哪些指標“

像這種,就需要先了解具體業務了

用戶爲什麼會投訴?產品哪裏做的讓用戶不滿意?用戶不滿意的具體數據有哪些?這些數據是怎麼生成的?不同粒度的數據又表示什麼?

另外別忘了老闆的終極目標(xxx,這是順便一下就能預測出來的嗎…)

提出問題假設,建立分析方法

當你已經知道你的目標和哪些數據有關係,卻不能確定哪個是主要問題,哪個是次要的時候,你就到了第二階段。

如果你時間允許的話,我建議你可以建立對照組進行對照試驗。

比如上面的問題,你就可以假設用戶投訴和資費太貴有關、和產品質量有關係、和售後服務有關係等

另外,如果你有歷史的投訴數據,你也可以提出基於時間維度的假設:不同月份受天氣影響太大,造成用戶投訴(如果你真的把原因歸結爲天氣,希望你不會挨老闆毒打吧)

利用採集工具,獲取相關數據

你已經提出了問題,也知道你的問題會和哪些數據有關聯,這個時候你需要數據,需要儘可能多的數據去驗證你的結論,讓你的結論更有信服力,能被老闆接受。

一般在大公司裏面,會有專門的人負責對接取數這個活,你只需要提需求就完事了。

在小公司裏面,往往你就是自己的主宰。

想要數據?自己去取。

數據不夠?自己去找。

我找不到?您真厲害(要你何用)

你可以通過一些數據採集工具或者自己寫爬蟲腳本。

這裏,小一的經驗是:

如果你數據量很小,就幾百幾千條那種,爬蟲就沒必要了,找一個八爪魚或者火車頭這類的採集工具,效率很高。

如果你數據量略大,需要定時獲取那建議你學習一下Python 爬蟲

“不會Python,不會爬蟲怎麼辦?”

“往下看,後面有你想要的!”


通過編程手段,實現數據清洗

在你的一波極限操作(差點被辭退)之下,你終於拿到了想要的數據。

仔細一看,監控系統每小時保存一個記錄文件,上個月一共30*24個文件,文件也不大,就幾MB的樣子,但頂不住它量大啊。

咋辦?

所以在這一步,掌握至少一門編程語言是基本要求。R、Python都可,推薦後者,後面會細說

在數據清洗的過程中,你需要面對這些問題:

缺失值處理、異常值處理、重複值處理,還有系統偶爾抽風后保存的垃圾數據。

提取有用信息,進行數據分析

現在萬事俱備,終於到你熟悉的領域了。

你利用基本的統計學方法進行數據統計,分析每一個指標的數據分佈,對比上月的數據你還計算了不同指標的環比情況。

你找到了反映用戶投訴的具體指標,確實是這個月這些指標波動比較大影響的,然後你又通過對比不同年份同時期的數據去證實你的結果。

最後,你利用數據分析軟件建立了一個簡單的預測模型,通過歷年數據預測這個月的指標,結果發現相差不大。

受此鼓舞的你又通過模型預測了下個月的指標情況,信心滿滿。

合理數據展現,輸出分析報告

當你一籌莫展不知道怎麼寫你的分析報告時,你的同事給你發來了“xxxx數據分析報告模板”。

當你看完模板你知道寫報告需要這些:圖表展示+數據論證+結果預測

你原想着長篇大論說一通,最後卻被你精煉到了五六頁PPT 上

由於同事模板助攻的到位,你只需要換幾張圖貼一些數據表,然後將最初的目標原因解釋清楚,形成一個稍有信服力的結論

最後附上你預測的結果,來一段合理又不偏頗的建議,你的報告就搞定了。




如何入門數據分析?

流程說完了,還是得來點實際的乾貨,不然又被你們說我水文章了。

這部分主要介紹:如何入門+學習方法

1. 確定自己的方向

在數據分析中,有這樣兩種類型:偏業務型的數分和偏技術型的數分。

偏業務型的我不太好說,因爲我不是業務出身。我瞭解的偏業務型更多的是在和市場的人打交道,針對市場的促銷活動分析用戶痛點,提供有價值的分析結果?(是問號,我沒打錯)

針對運營的周、月、季度、年指標進行輸入輸出,完美闡釋了“我們不生產數據,我們只是數據的搬運工”這句話。

偏技術型的大多都呆不久,哈哈,開個玩笑。

偏技術的會注意各種指標之間的關聯,根據業務的情況相應的進行指標優化,預測業務的相應指標。

所以,偏技術型的數據分析最後幹着幹着就成了一名數據挖掘工程師,自然演變吧。

偏業務型的更容易入門,多瞭解指標看看業務相關,剩下的就是水到渠成的事情。偏技術的就需要你自己不斷的學習,提高自己,尤其是算法模型,沒那麼簡單入門。

2. 提高自己的能力

前面說的有點誇大,你也不必太緊張。數據分析這能力,有很多種途徑去提升。

下面我列一下能力階梯,想要入門的同學可以一級一級往上提升自己。

2.1 業務能力

不多介紹,看個人能力。短則一兩週,長則一兩個月。

業務相關的,就那麼點數據,指標的含義都是早都確定好了的。能舉一反三,將一個大目標分解成具體的小指標上,或將小指標確定到具體數據上去,業務能力就ok了。

2.2 Excel 相關

很多同學不把它當回事,不當回事的我暫且認爲你還是學生,但凡開始工作已經接觸到數據的人,你敢說你真的會用Excel 嗎?

Excel 永遠是數據處理的一大利器,這不僅體現在它對數據進行各種統計彙總的操作上,還體現在它的圖表輸出上。

相信也有很多同學通過Python 處理完數據之後,還會去用Excel 畫圖。

當你的數據量小(以100萬行爲界限),數據處理簡單,數據表唯一的情況下,建議你直接用Excel,快速、方便,輸出簡單。

在老闆眼中,可以用Excel 搞定的分析任務分分鐘就能出結果!

2.3 Python/R

前面已經說過爲什麼要掌握一門編程語言,那在這就來說說怎麼簡單快速入門一門編程語言

我們都知道,有目的性的去學習是事半功倍的,編程也是

這裏我們學編程進行數分的目的就是進行數據清洗、統計預測之類的,那肯定會有這樣一個流程:讀數據—清洗數據—分析數據—圖表分析—關聯預測—保存數據。

讀數據:肯定和文件操作有關,學習文件相關內容

清洗數據:先判斷所有不合理數據,在刪除或填充,所以和判斷、循環有關,學習分支相關內容

統計分析:通過數學方法彙總指標,和方法有關,學習函數、數學模塊相關內容

圖表分析:通過製作圖表進行更深層次的維度分析,學習可視化的相關內容

關聯預測:通過的3、4兩步進行合理的關聯預測,需要學習相應的簡單算法,以及代碼的實現應用(加分項)

保存數據:保存到文件或者數據庫,學習數據庫相關內容

這一個流程下來,編程的相關語法就差不多也學完了,爲了提高處理效率在學習下進程線程相關、數據處理高階模塊相關,基本上你的編程技術也就沒啥問題了。

這裏小一推薦你們直接入門Python,我有寫一整套的Python 從入門到進階再到高階的學習教程,感興趣的可以快速入門: 小白學Python(入門+進階+高階)

R就不說多了,建議直接Python

2.4 SQL

我本來都忘了寫這個技能,回過頭看文章才補了上來。不是因爲它不重要,而是我每天都在用,熟悉的都忘記了!

學習SQL 沒啥好說的,比上面的Python、R簡單多了

記住四個功能:增刪改查

數據庫的基本操作都是圍繞這四個的,高階的數據庫操作在數據分析上也用不到,暫時不用考慮

2.5 挖掘能力

不要糾結這個小標題,權且把這個當做數據分析的一個加分項吧,有則更好。

目前的數據分析師大多都會要求懂些算法知識,這個沒辦法,別人懂就會比你有優勢,就會搶你飯碗。

對於新手來說,到了這一步建議直接先去看挖掘十大算法,瞭解概念就好,然後儘可能的看一些相關的算法模型案例,知道怎麼用就行。

最好,自己動手搞幾個數據集玩一玩。

至於手撕XX算法這種事,就看個人能力了,別勉強。

2.6 輸出能力

套路+練習,小一我覺得主要就這兩個。

畢竟寫PPT、輸出文章這種能力,和天賦有關係也和你的上司有關係,你要是寫的東西合胃口了,怎麼寫都行,要是不合,那可能就會有xxxx數據分析報告Vxx.xx版這種類型的報告頻繁出現了。

多看看老同事們寫的文檔,熟悉熟悉自己公司的文檔風格和套路,多寫多練,也會慢慢好起來的,這不是什麼硬性要求。


總結

好了,介紹完了。

今天沒有總結,建議有空了回過頭把文章多讀幾遍

如果對你有用,就再順手點個贊吧。



寫在後面的話

我也不知道怎麼會寫這麼多內容,列完提綱我感覺很簡單,很快就能寫完,結果就…

可能自己這兩年經歷的東西太多了吧,上面寫的也都是自己在數據分析上摸爬滾打的一些心得,有些地方可能會有失偏頗,但整體還是希望能夠對你有所幫助。

抽空我會分享自己在數據分析之路上學習的一些資源教程,和自己看過的書籍清單



原創不易,歡迎點贊噢

文章首發:公衆號【知秋小一】

文章同步:掘金,簡書,csdn


原文鏈接:2020,如何轉行數據分析?


歡迎點贊,希望對你有用


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章