關於數據分析那些事,看這一篇就夠了

本文轉自:數據分析與開發

目錄

 

1什麼是數據分析;

2數據分析職業介紹;

3數據分析生涯規劃;

4數據分析基本素質;

 

一:那到底什麼是數據分析呢?

 

數據分析是基於商業目的,有目的的進行收集、整理、加工和分析數據,提煉有價信息的一個過程。

 

其過程概括起來主要包括:明確分析目的與框架、數據收集、數據處理、數據分析、數據展現和撰寫報告等6個階段。

 

1、明確分析目的與框架

 

一個分析項目,你的數據對象是誰?商業目的是什麼?要解決什麼業務問題?數據分析師對這些都要瞭然於心。

 

基於商業的理解,整理分析框架和分析思路。例如,減少新客戶的流失、優化活動效果、提高客戶響應率等等。不同的項目對數據的要求,使用的分析手段也是不一樣的。

 

2、數據收集

 

數據收集是按照確定的數據分析和框架內容,有目的的收集、整合相關數據的一個過程,它是數據分析的一個基礎。

 

3、數據處理

 

數據處理是指對收集到的數據進行加工、整理,以便開展數據分析,它是數據分析前必不可少的階段。這個過程是數據分析整個過程中最佔據時間的,也在一定程度上取決於數據倉庫的搭建和數據質量的保證。

 

數據處理主要包括數據清洗、數據轉化等處理方法。

 

4、數據分析

 

數據分析是指通過分析手段、方法和技巧對準備好的數據進行探索、分析,從中發現因果關係、內部聯繫和業務規律,爲商業目提供決策參考。

 

到了這個階段,要能駕馭數據、開展數據分析,就要涉及到工具和方法的使用。其一要熟悉常規數據分析方法,最基本的要了解例如方差、迴歸、因子、聚類、分類、時間序列等多元和數據分析方法的原理、使用範圍、優缺點和結果的解釋;其二是熟悉1+1種數據分析工具,Excel是最常見,一般的數據分析我們可以通過Excel完成,後而要熟悉一個專業的分析軟件,如數據分析工具SPSS/SAS/R/Matlab等,便於進行一些專業的統計分析、數據建模等。

 

5、數據展現

 

一般情況下,數據分析的結果都是通過圖、表的方式來呈現,俗話說:字不如表,表不如圖。。藉助數據展現手段,能更直觀的讓數據分析師表述想要呈現的信息、觀點和建議。。

 

常用的圖表包括餅圖、折線圖、柱形圖/條形圖、散點圖、雷達圖等、金字塔圖、矩陣圖、漏斗圖、帕雷託圖等。

 

6、撰寫報告

 

最後階段,就是撰寫數據分析報告,這是對整個數據分析成果的一個呈現。通過分析報告,把數據分析的目的、過程、結果及方案完整呈現出來,以供商業目的提供參考。

 

一份好的數據分析報告,首先需要有一個好的分析框架,並且圖文並茂,層次明晰,能夠讓閱讀者一目瞭然。結構清晰、主次分明可以使閱讀者正確理解報告內容;圖文並茂,可以令數據更加生動活潑,提高視覺衝擊力,有助於閱讀者更形象、直觀地看清楚問題和結論,從而產生思考。

 

另外,數據分析報告需要有明確的結論、建議和解決方案,不僅僅是找出問題,後者是更重要的,否則稱不上好的分析,同時也失去了報告的意義,數據的初衷就是爲解決一個商業目的才進行的分析,不能捨本求末。

 

二:數據分析師職業介紹

 

做數據分析前我們首先要明確分析目的和內容,對於數據分析師而言,他們的進階需求無外乎是各個企業對數據分析師的職位要求。在前程無憂、中華英才網以及智聯招聘上,我們隨便搜索下數據分析的崗位信息,都能找到大量類似於下面的一些職位要求信息:

 

 

別看崗位職責,任職要求這麼多,說白了主要就三點要求:1)對相關業務的理解;2)掌握一到二種數據分析工具;3)良好的溝通。可能不同的公司因爲需求不同,會在要求上有點小小的不同,而這個不同主要集中在數據庫上。瞭解數據分析師的具體需求之前,我們有必要先了解數據分析師的職位體系。

 

數據分析師的職位體系

 

 

在傳統行業中,數據分析更多存在移動、銀行、超市等行業,在這些行業中你纔會偶爾聽到數據分析師這個職位,也許更多是聽到數據挖掘工程師、數據建模師。在中國也許只在電信的項目中,纔會存在真正的意義上的數據挖掘。

 

數據行業從廣義上講可以分爲以下幾個職位:

 

1、數據分析師

 

更注意是對數據、數據指標的解讀,通過對數據的分析,來解決商業問題。主要有以下幾個次層次: 1)業務監控:診斷當前業務是否正常?是否存在問題?業務發展是否達到預期(KPI)?如果沒有達到預期,問主要問題在哪?是什麼原因引起的?

 

2)建立分析體系:這些數據分析師已經對業務有一定的理解,對業務也相對比較熟悉,更多幫業務方建立一套分析體系,或者更高級是做成數據產品。例如:營銷活動。分析師會告訴業務方,在活動前你應該分析哪些數據,從而制定恰當的營銷計劃。在營銷過程中,你應該看哪些數據,從而及時做出營銷活動調整。在營銷活動,應該如何進行活動效果評估。

 

3)行業未來發展的趨勢分析:這應該是數據分析師最高級別,有的公司叫做戰略分析師/商業分析師。這個層次的數據分析師站的更高,在行業、宏觀的層面進行業務分析,預測未來行業的發展,競爭對手的業務構成,幫助公司制定戰略發展計劃,並及時跟蹤、分析市場動態,從而及時對戰略進行不斷優化。

 

主要技能要求:

 

數據庫知識(SQL至少要熟悉)、基本的統計分析知識、EXCEL要相當熟悉,對SPSS或SAS有一定的瞭解,對於與網站相關的業務還可能要求掌握GA等網站分析工具,當然PPT也是必備的。

 

2、數據挖掘工程師

 

更多是通過對海量數據進行挖掘,尋找數據的存在模式、或者說規律,從而通過數據挖掘來解決具體問題。數據挖掘更多是針對某一個具體的問題,是以解決具體問題爲導向的。例如:聚類分析,通過對於會員各種人口統計學、行爲數據進行分析,對會員進行分類,對不同的類型的會員建立相應的profiling,從而更好的理解會員,知道公司會員是到底如何?高、中、低低價值的會員構成,既可以後期各種會員的運營提供指導,提高活動效率,可以指導公司的營銷,例如廣告的投放策略。以及用於公司各種戰略的制定。

 

主要技能要求: 1)數據庫必須精通。很多時候,你模型的數據預處理,可能完成在數據庫裏完成,你用到的數據庫技巧更高。

 

2)必須要會成熟的數據挖掘工具、數據挖掘算法,例如:SPSS/CELEMENTINE、SAS/EM等,當然如果你會一、二款開源軟件,並會寫一些程序代碼那是最好的,大公司都喜歡用開源的軟件,例如:R、WEKA。

 

3、數據建模師

 

這個職位與數據挖掘工程師還是有本質區別的。數據建模師,更多偏向於中、小數據量,而且其使用更多更多是統計學的方法,而數據挖掘中的例如:決策樹、神經網絡、SVM等在這裏是根據不會涉及的。

 

當然二者有一個共同之處都是,針對很具體的問題,都是會解決某個具體問題,例如:營銷反應率,你就可能歷史的郵箱、短信的反應情況,來建模型進行預測,從而提高郵件反應率,或者減少對用戶來說的“垃圾”郵箱,提高用戶體驗。所以從掌握的技能上講,這二者就有很大的區別,數據建模師其實很少會提到算法這個詞,更多說使用什麼模型,有感覺嗎?但是從實務界來看,這二個模型越來越沒有明確的分工,一般來說都會二個職位的人都會去學習對方的知識,所以這二個職位有合併的趨勢,但在未來幾年來,我覺得公司要招人的時候應該還是要有區別的。

 

新進入數據行業的同學,可以根據自己的背景背景選擇相應的職位,學數據、統計學的朋友更多可以偏向於建模師,而計算機特別是寫編程出現和同學,可以走數據挖掘工程師,也許適應性更好,但這不是絕對的。

 

數據分析師的職位級別劃分

 

不同公司對數據分析師的職位劃分騷有不同,在一些中小型企業,沒有成立獨立的數據中心前,數據分析的相關職位往往是在譬如市場部、運營部這些部門之下,通常數據分析成員在2-4人不等。對於一些大型企業,有獨立的數據部門的企業,其數據分析團隊人員則是十到百人不等,其職位頭銜有通俗的總監、經理、主管劃分,也有助理、資深、專家之類的劃分。下面是一張微博上傳的比較火的某集團的數據分析師職位級別劃分圖表,大家可根據自身的情況對號入座。(下圖來自微博阿里的朋友分享)

 

 

三:數據分析職業生涯規劃

 

按照不同分析方法所能給人帶來的智能程度,可以把分析能力劃分爲以下8個等級。

 

 

上面的8級劃分源自SAS網站的Eight levels of analytics,由IDMer編譯而成,個人覺得其中的8張圖片非常形象生動,網友@數據小宇軍用兩個圖表將它們更好地展示出來了:

 

 

數據分析師的級別

 

1、數據跟蹤員:機械拷貝看到的數據,很少處理數據

 

雖然這個工作的人還不能稱作數據分析師,但是往往作這樣工作的人還都自稱是數據分析師,這樣的人,只能通過×××系統看到有限的數據,並且很少去處理數據,甚至不理解數據的由來和含義,只是機械的把自己看到的數據拷貝出來,轉發給相應的人。這類人發出來的數據,是否有意義,怎麼解讀,他自己是不知道的,只能期望收到數據的人了。

 

2、數據查詢員/處理員:數據處理沒問題,缺乏數據解讀能力

 

這些人可以稱爲分析師了,他們已經對數據有一定的理解了,對於大部分數據,他們也知道數據的定義,並且可以通過監控系統或者原始的數據,處理得到這些數據。統計學的方法,這批人還是很精通的,統計學的工具,他們也是用起來得心應手,你讓他們做一下因子分析,聚類肯定是沒問題,各類檢驗也是用的爐火純青。他們的不足是:1、如果不告訴他們命題,那麼他們就不知道該應用什麼樣的方法去得到結論了。2、對於數據的處理沒問題,但是卻沒有一個很好的數據解讀能力。只能在統計學的角度上解釋數據。

 

3、數據分析師:解讀數據,定位問題提出答案

 

數據分析師這羣人,對於數據的處理已經不是問題了,他們的重點已經轉化到怎麼樣去解讀數據了,同樣的數據,在不同人的眼中有不一致的內容。好的數據分析師,是能通過數據找到問題,準確的定位問題,準確的找到問題產生的原因,爲下一步的改進,找到機會點的人。往往科班出身的人,欠缺的不是在處理數據上,而是在解讀數據上,至於將數據和產品結合到一起,則是其更缺少的能力了。

 

4、數據應用師:將數據還原到產品中,爲產品所用

 

數據應用,這個詞很少被提到。但是應用數據被提的很多,分析了大量的數據,除了能找到問題以外,還有很多數據可以還原到產品中,爲產品所用。典型的是在電子商務的網站中,用戶的購買數據,查看數據和操作的記錄,往往是爲其推薦新商品的好起點,而數據應用師就是要通過自己的分析,給相應的產品人員一個應該推薦什麼產品,購買的可能性會最大的一個結論。國內能做到這個級別的數據人員還真是少的可憐,甚至大部分人員連數據的視圖都搞不定,而真正意義上的能數據應用師,可以用數據讓一個產品變得更加地簡單高效。

 

5、數據規劃師:走在產品前面,讓數據有新的價值方向

 

數據規劃師,不能說水平上比數據應用師高多少,而是另外一個讓數據有價值的方向。往往在實際的應用中,數據都是有其生命週期的,用來分析、應用的數據也是,這點上,尤其是在互聯網公司更加明顯,一個版本的更新,可能導致之前的所有數據都一定程度的失效。數據規劃師在一個產品設計之前,就已經分析到了,這個產品應該記錄什麼樣的數據,這些數據能跟蹤什麼問題,哪些記錄到的數據,應該可以用到數據中去,可以對產品產生什麼樣的價值。

 

四:數據分析的基本素質

 

一名合格的數據分析師需要具備的五大基本能力和素質。

 

1、態度嚴謹負責

 

嚴謹負責是數據分析師的必備素質之一,只有本着嚴謹負責的態度,才能保證數據的客觀、準確。在企業裏,數據分析師可以說是企業的醫生,他們通過對企業運營數據的分析,爲企業尋找癥結及問題。一名合格的數據分析師,應具有嚴謹、負責的態度,保持中立立場,客觀評價企業發展過程中存在的問題,爲決策層提供有效的參考依據;不應受其他因素影響而更改數據,隱瞞企業存在的問題,這樣做對企業發展是非常不利的,甚至會造成嚴重的後果。而且,對數據分析師自身來說,也是前途盡毀,從此以後所做的數據分析結果都將受到質疑,因爲你已經不再是可信賴的人,在同事、領導、客戶面前已經失去了信任。所以,作爲一名數據分析師就必須持有嚴謹負責的態度,這也是最基本的職業道德。

 

2、好奇心強烈

 

好奇心人皆有之,但是作爲數據分析師,這份好奇心就應該更強烈,要積極主動地發現和挖掘隱藏在數據內部的真相。在數據分析師的腦子裏,應該充滿着無數個“爲什麼”,爲什麼是這樣的結果,爲什麼不是那樣的結果,導致這個結果的原因是什麼,爲什麼結果不是預期的那樣等等。這一系列問題都要在進行數據分析時提出來,並且通過數據分析,給自己一個滿意的答案。越是優秀的數據分析師,好奇心也越不容易滿足,回答了一個問題,又會拋出一個新的問題,繼續研究下去。只有擁有了這樣一種刨根問底的精神,纔會對數據和結論保持敏感,繼而順藤摸瓜,找出數據背後的真相。

 

3、邏輯思維清晰

 

除了一顆探索真相的好奇心,數據分析師還需要具備縝密的思維和清晰的邏輯推理能力。我記得有位大師說過:結構爲王。何謂結構,結構就是我們常說的邏輯,不論說話還是寫文章,都要有條理,有目的,不可眉毛鬍子一把抓,不分主次。

 

通常從事數據分析時所面對的商業問題都是較爲複雜的,我們要考慮錯綜複雜的成因,分析所面對的各種複雜的環境因素,並在若干發展可能性中選擇一個最優的方向。這就需要我們對事實有足夠的瞭解,同時也需要我們能真正理清問題的整體以及局部的結構,在深度思考後,理清結構中相互的邏輯關係,只有這樣才能真正客觀地、科學地找到商業問題的答案。

 

4、擅長模仿

 

在做數據分析時,有自己的想法固然重要,但是“前車之鑑”也是非常有必要學習的,它能幫助數據分析師迅速地成長,因此,模仿是快速提高學習成果的有效方法。這裏說的模仿主要是參考他人優秀的分析思路和方法,而並不是說直接“照搬”。成功的模仿需要領會他人方法精髓,理解其分析原理,透過表面達到實質。萬變不離其宗,要善於將這些精華轉化爲自己的知識,否則,只能是“一直在模仿,從未超越過”。

 

5、勇於創新

 

通過模仿可以借鑑他人的成功經驗,但模仿的時間不宜太長,並且建議每次模仿後都要進行總結,提出可以改進的地方,甚至要有所創新。創新是一個優秀數據分析師應具備的精神,只有不斷的創新,才能提高自己的分析水平,使自己站在更高的角度來分析問題,爲整個研究領域乃至社會帶來更多的價值。現在的分析方法和研究課題千變萬化,墨守成規是無法很好地解決所面臨的新問題的。

 

 

推薦閱讀

Python 數據科學入門

數據科學家需要知道的 5 個基本統計學概念

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章