大數據崗位家族解讀

一.前言

最近在知乎、知識星球等網站看到大數據的問題和文章非常多的,看到很多問題都是問“我想從事大數據,應該怎麼準備?”,“如何入門大數據”等類似的問題?以前在招聘的時候包括校招和社招,也經常碰到說今後的職業規劃想做大數據,面對這樣的回答,我可以判斷候選人對大數據還處在一個相對模糊的階段,我基本就給pass掉了,這也是我爲什麼要專門寫這篇文章的原因。

從標題上可以看出,本人對大數據定位成一個崗位家族,像後端開發,人事崗、營銷崗一樣,其實背後是有好幾個細分崗位劃分的,在求職的時候需要有一個明確的目標的,目標越明確,準備越充分,成功率也越高。

二.大數據概念

按照常規套路先介紹概念,大數據是指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產—百度百科

  • Volume:海量的數據規模,數據體量達到PB甚至EB級別,這裏的數據量主要來源於網絡日誌,多媒體數據等。
  • Variety:異構的數據類型,不僅僅包含結構化的數據、還包括半結構化和非結構化數據,比如日誌文件、圖像、音視頻等。
  • Velocity:快速的數據流轉,數據的產生和處理速度非常快。
  • Value:價值密度低,有價值的數據佔比很小,需要用到人工智能等方法去挖掘新知識。

三.大數據發展歷程

通過一張圖來簡單看一下發展歷程,可以看出來大數據的鼻祖是數據倉庫,所以現在做大數據比較資深都是從數據倉庫、數倉架構師、數倉模型師轉型過來的,隨着計算機技術的發展,計算成本、存儲成本大幅降低,逐漸產出了數據湖、數據中臺這樣的解決方案和概念。


從下面大數據、人工智能百度指數的發展趨勢圖也看出來大數據發展的潮流,所以原來的數據倉庫工程師轉成大數據工程師都是正好站在了這個風口給吹起來的。還有一個崗位是被AI給吹起來的,那就是原來叫算法工程師的同學,都自動更新成AI工程師了。
所以雷布斯的風口理論還是有一定道理的。



四.大數據崗位家族

這也是本篇文章的重點,也是能夠解開很多想入門大數據行當初學者的關鍵所在。
大數據家族嚴格來說可以細分成下面9個崗位,當然這9個崗位並不是在每個公司都會劃分的這麼細,越是重視數據、越是財大氣粗的公司劃分的越細,很多公司的數據人員會身兼數職,比如大數據運維和大數據平臺開發,數據倉庫與數據測試等,都是同一個人兼着。


這9個崗位有什麼關係呢?哪個更高大上呢?其實他們也是有生物鏈的。

大數據要在業務端發揮價值,一定要有數據產品經理(數據分析師某種程度上也兼職這個角色)、數據可視化工程師將數據呈現出來給到老闆、業務方、用戶。

但是數據產品不像其他業務型產品在一定用戶需求基礎上衍生出來,產品經理在能力則決定着產品的受歡迎程度,但是數據產品經理如果只在用戶的需求基礎衍生是遠遠不夠的,因爲普通用戶根本不知道背後還有數據這回事,裏面的價值是需要有數學功底和業務功底的才能探索出來的,僅僅靠數據產品經理就有點力不從心了,所以這個時候數據分析師、算法工程師、數據科學家就登場了,他們在研究挖掘海量數據之後(這裏數據低價值密度的特性大幅提高了門檻),會提出概率更高的價值點交給產品經理進行調研、設計、上線。估計這個時候會有很多人不同意我的觀點,實際工作流程大部分不是這樣的,實際情況確實也是這樣,這是因爲目前的數據產品經理大都是從有數據經驗的人轉過來的,所以本身已經具備了這樣的能力。這也是爲什麼數據產品經理比業務線產品經理更難的原因之一(個人觀點)。

再往前看,數據量這麼大,類型又這麼多樣,數據分析師、算法工程師、數據科學家每個人都直接從原始數據進行計算、分析顯然是及其低效的,另外如果數據質量太差的話,分析或者挖掘出來的價值點可能是負面的,這個時候數據倉庫工程師、數據測試隆重登場(大部分公司這兩個角色是二合一的,包括頭部互聯網公司分開的都不多),前面的髒活、累活我們全包了,你們只管挖掘價值就好了,價值出來了,我們也是功勞的,所以數倉工程師更側重的是底層數據清洗和建模。

再往前看,前面說了現在數據最大特點BIG,在哪裏存儲和計算呢,並且計算時效性比以前還高,各種實時大盤數據需求,最上游的運維和大數據開發工程師終於出場了,帶寬、內存、時效性都不是事,我們來搞定。這裏就要點名一下大數據開發工程師(簡稱大數據工程師)了,是網上被點名最多,也是被崇拜最多的,雖然很多人都不熟悉你,真是令其他幾位兄弟姐妹羨慕。

下面就每個崗位都逐一解釋一下,主要是通過工作內容來認識他們,先說明一下,這裏工作內容主要是針對校招JD總結分析出來,跟社招有一定的區別。

1. 大數據運維

  • 負責溝通協調數據開發團隊,實時監控調度腳本的執行效率,確保平臺資源的高效合理使用
  • 負責Hadoop生態組件的部署升級、擴容縮容、性能和管理優化、問題排查等,包括但不限於CDH、HDFS、YARN、Hive、HBase、Spark和Flink等

2. 大數據平臺開發

  • 參與大數據平臺工具鏈(元數據、開發平臺、調度系統、資源控制等)的設計、開發、維護與優化
  • 參與報表系統、數據分析系統、數據產品等功能設計開發
  • 典型產出如下圖(業內最有名的是阿里的ODPS)

3. 數據倉庫工程師

  • 數據倉庫離線/實時ETL開發及優化
  • 數據倉庫模型設計
  • 數據可視化開發
  • 推動大數據應用技術與平臺
  • 典型產出如下圖

4. 數據測試

  • 負責數倉計算邏輯正確性測試
  • 負責數據產品數據的準確性
  • 保證數據埋點的可靠性與準確性
  • 負責數據自動化測試策略和系統建設

這個崗位現在大數據領域裏面是最被忽視的,數據質量也是目前大家最頭疼的問題之一。數據的追隨者:大數據系列之最冷門崗位-數據測試

5. 數據分析師

  • 建設管理報表體系,並進行報表的開發維護與檢測
  • 搭建業務KPI指標體系,並進行監測與分析,爲公司產品運營優化提供建議;
  • 撰寫數據分析報告,爲業務問題原因排查提供數據支持及解決方案;
  • 給業務部門提供運營、產品、活動數據,根據數據問題,提出相應的解決建議
  • 主要產出

數據分析師詳解文章 數據的追隨者:最實用數據分析師準備之路

6. 算法工程師/Ai工程師

  • 語音、圖像、自然語言處理、深度學習等機器學習算法開發及優化;
  • 推薦、搜索、廣告系統的算法開發及優化
  • 挖掘並推進算法在業務中應用
  • 機器學習平臺開發及優化
  • 像知乎給大家“推薦”欄目,包括“關注”、“熱榜”欄目都是出自算法工程師之手

7. 數據產品經理

  • 負責BI產品、數據可視化規劃、設計、迭代工作 ,通過數據爲業務賦能
  • 負責協助公司各業務⽅向⼤數據應⽤產品調研、規劃、執⾏
  • 負責梳理業務需求,甄別業務場景和價值,制定研發優先級,跟蹤研發流程,確保價值交付
  • 負責數據產品的開發項目管理工作,確保項目按照需求如期完成

8. 數據可視化

  • 負責大數據項目/產品前端展示模式規劃構思和創意設計
  • 負責常規圖表組件的封裝、地圖組件技術的迭代與維護、頁面元素動效的維護等;
  • 負責報表平臺輸出可視化顯示及迭代
    數據可視化可以分爲2種,一種是通過BI工具(Tableau、Cognos、BO等)或者Excel/PPT實現,還有一種是前端開發工程師實現,這塊專門做的同學相對也比較少,只是多少都會一些。

9. 數據科學家

數據科學家之所以放在最後,其實他是以上崗位相對綜合的職位,基本上數據分析、數據倉庫、數據爬蟲清洗、算法/數據挖掘、數據產品等5個領域中的一個或者多個專家。詳細的可看這篇文章介紹 數據的追隨者:大數據系列之數據科學家

六.一個數據產品生產鏈路

這裏給大家說一下一款數據產品是如何生產上線的,比如下面這個BI平臺實時數據看板,包含了交易明細,各種不同程度的彙總數據,有離線數據,有實時數據。


他的一般生產流程可以通過下圖來說明,如果需求當中包括一些預測之類的數據,這個時候算法工程師也會介入進來。

七.結束語

上面重點從崗位的生物鏈、崗位的主要工作內容,以及典型的數據產品生產流程,詳細介紹了大數據崗位家族中的9個崗位,其目的就是希望在校大學生或者想轉入大數據行當的同學,對大數據有一個整體和全貌的認知。

當有了這個認知之後,希望再問問題的時候或者說跟面試官說自己的規劃的時候,不是直接說想做大數據,或者如何準備大數據,而是希望直接問具體的某個崗位如何準備或者選擇,當有了這樣比較具體的目標之後,自己準備起來也會更加高效和聚焦,如果能對大家有了這樣的幫助,此篇文章的目的也就達到了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章