大数据岗位家族解读

一.前言

最近在知乎、知识星球等网站看到大数据的问题和文章非常多的,看到很多问题都是问“我想从事大数据,应该怎么准备?”,“如何入门大数据”等类似的问题?以前在招聘的时候包括校招和社招,也经常碰到说今后的职业规划想做大数据,面对这样的回答,我可以判断候选人对大数据还处在一个相对模糊的阶段,我基本就给pass掉了,这也是我为什么要专门写这篇文章的原因。

从标题上可以看出,本人对大数据定位成一个岗位家族,像后端开发,人事岗、营销岗一样,其实背后是有好几个细分岗位划分的,在求职的时候需要有一个明确的目标的,目标越明确,准备越充分,成功率也越高。

二.大数据概念

按照常规套路先介绍概念,大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产—百度百科

  • Volume:海量的数据规模,数据体量达到PB甚至EB级别,这里的数据量主要来源于网络日志,多媒体数据等。
  • Variety:异构的数据类型,不仅仅包含结构化的数据、还包括半结构化和非结构化数据,比如日志文件、图像、音视频等。
  • Velocity:快速的数据流转,数据的产生和处理速度非常快。
  • Value:价值密度低,有价值的数据占比很小,需要用到人工智能等方法去挖掘新知识。

三.大数据发展历程

通过一张图来简单看一下发展历程,可以看出来大数据的鼻祖是数据仓库,所以现在做大数据比较资深都是从数据仓库、数仓架构师、数仓模型师转型过来的,随着计算机技术的发展,计算成本、存储成本大幅降低,逐渐产出了数据湖、数据中台这样的解决方案和概念。


从下面大数据、人工智能百度指数的发展趋势图也看出来大数据发展的潮流,所以原来的数据仓库工程师转成大数据工程师都是正好站在了这个风口给吹起来的。还有一个岗位是被AI给吹起来的,那就是原来叫算法工程师的同学,都自动更新成AI工程师了。
所以雷布斯的风口理论还是有一定道理的。



四.大数据岗位家族

这也是本篇文章的重点,也是能够解开很多想入门大数据行当初学者的关键所在。
大数据家族严格来说可以细分成下面9个岗位,当然这9个岗位并不是在每个公司都会划分的这么细,越是重视数据、越是财大气粗的公司划分的越细,很多公司的数据人员会身兼数职,比如大数据运维和大数据平台开发,数据仓库与数据测试等,都是同一个人兼着。


这9个岗位有什么关系呢?哪个更高大上呢?其实他们也是有生物链的。

大数据要在业务端发挥价值,一定要有数据产品经理(数据分析师某种程度上也兼职这个角色)、数据可视化工程师将数据呈现出来给到老板、业务方、用户。

但是数据产品不像其他业务型产品在一定用户需求基础上衍生出来,产品经理在能力则决定着产品的受欢迎程度,但是数据产品经理如果只在用户的需求基础衍生是远远不够的,因为普通用户根本不知道背后还有数据这回事,里面的价值是需要有数学功底和业务功底的才能探索出来的,仅仅靠数据产品经理就有点力不从心了,所以这个时候数据分析师、算法工程师、数据科学家就登场了,他们在研究挖掘海量数据之后(这里数据低价值密度的特性大幅提高了门槛),会提出概率更高的价值点交给产品经理进行调研、设计、上线。估计这个时候会有很多人不同意我的观点,实际工作流程大部分不是这样的,实际情况确实也是这样,这是因为目前的数据产品经理大都是从有数据经验的人转过来的,所以本身已经具备了这样的能力。这也是为什么数据产品经理比业务线产品经理更难的原因之一(个人观点)。

再往前看,数据量这么大,类型又这么多样,数据分析师、算法工程师、数据科学家每个人都直接从原始数据进行计算、分析显然是及其低效的,另外如果数据质量太差的话,分析或者挖掘出来的价值点可能是负面的,这个时候数据仓库工程师、数据测试隆重登场(大部分公司这两个角色是二合一的,包括头部互联网公司分开的都不多),前面的脏活、累活我们全包了,你们只管挖掘价值就好了,价值出来了,我们也是功劳的,所以数仓工程师更侧重的是底层数据清洗和建模。

再往前看,前面说了现在数据最大特点BIG,在哪里存储和计算呢,并且计算时效性比以前还高,各种实时大盘数据需求,最上游的运维和大数据开发工程师终于出场了,带宽、内存、时效性都不是事,我们来搞定。这里就要点名一下大数据开发工程师(简称大数据工程师)了,是网上被点名最多,也是被崇拜最多的,虽然很多人都不熟悉你,真是令其他几位兄弟姐妹羡慕。

下面就每个岗位都逐一解释一下,主要是通过工作内容来认识他们,先说明一下,这里工作内容主要是针对校招JD总结分析出来,跟社招有一定的区别。

1. 大数据运维

  • 负责沟通协调数据开发团队,实时监控调度脚本的执行效率,确保平台资源的高效合理使用
  • 负责Hadoop生态组件的部署升级、扩容缩容、性能和管理优化、问题排查等,包括但不限于CDH、HDFS、YARN、Hive、HBase、Spark和Flink等

2. 大数据平台开发

  • 参与大数据平台工具链(元数据、开发平台、调度系统、资源控制等)的设计、开发、维护与优化
  • 参与报表系统、数据分析系统、数据产品等功能设计开发
  • 典型产出如下图(业内最有名的是阿里的ODPS)

3. 数据仓库工程师

  • 数据仓库离线/实时ETL开发及优化
  • 数据仓库模型设计
  • 数据可视化开发
  • 推动大数据应用技术与平台
  • 典型产出如下图

4. 数据测试

  • 负责数仓计算逻辑正确性测试
  • 负责数据产品数据的准确性
  • 保证数据埋点的可靠性与准确性
  • 负责数据自动化测试策略和系统建设

这个岗位现在大数据领域里面是最被忽视的,数据质量也是目前大家最头疼的问题之一。数据的追随者:大数据系列之最冷门岗位-数据测试

5. 数据分析师

  • 建设管理报表体系,并进行报表的开发维护与检测
  • 搭建业务KPI指标体系,并进行监测与分析,为公司产品运营优化提供建议;
  • 撰写数据分析报告,为业务问题原因排查提供数据支持及解决方案;
  • 给业务部门提供运营、产品、活动数据,根据数据问题,提出相应的解决建议
  • 主要产出

数据分析师详解文章 数据的追随者:最实用数据分析师准备之路

6. 算法工程师/Ai工程师

  • 语音、图像、自然语言处理、深度学习等机器学习算法开发及优化;
  • 推荐、搜索、广告系统的算法开发及优化
  • 挖掘并推进算法在业务中应用
  • 机器学习平台开发及优化
  • 像知乎给大家“推荐”栏目,包括“关注”、“热榜”栏目都是出自算法工程师之手

7. 数据产品经理

  • 负责BI产品、数据可视化规划、设计、迭代工作 ,通过数据为业务赋能
  • 负责协助公司各业务⽅向⼤数据应⽤产品调研、规划、执⾏
  • 负责梳理业务需求,甄别业务场景和价值,制定研发优先级,跟踪研发流程,确保价值交付
  • 负责数据产品的开发项目管理工作,确保项目按照需求如期完成

8. 数据可视化

  • 负责大数据项目/产品前端展示模式规划构思和创意设计
  • 负责常规图表组件的封装、地图组件技术的迭代与维护、页面元素动效的维护等;
  • 负责报表平台输出可视化显示及迭代
    数据可视化可以分为2种,一种是通过BI工具(Tableau、Cognos、BO等)或者Excel/PPT实现,还有一种是前端开发工程师实现,这块专门做的同学相对也比较少,只是多少都会一些。

9. 数据科学家

数据科学家之所以放在最后,其实他是以上岗位相对综合的职位,基本上数据分析、数据仓库、数据爬虫清洗、算法/数据挖掘、数据产品等5个领域中的一个或者多个专家。详细的可看这篇文章介绍 数据的追随者:大数据系列之数据科学家

六.一个数据产品生产链路

这里给大家说一下一款数据产品是如何生产上线的,比如下面这个BI平台实时数据看板,包含了交易明细,各种不同程度的汇总数据,有离线数据,有实时数据。


他的一般生产流程可以通过下图来说明,如果需求当中包括一些预测之类的数据,这个时候算法工程师也会介入进来。

七.结束语

上面重点从岗位的生物链、岗位的主要工作内容,以及典型的数据产品生产流程,详细介绍了大数据岗位家族中的9个岗位,其目的就是希望在校大学生或者想转入大数据行当的同学,对大数据有一个整体和全貌的认知。

当有了这个认知之后,希望再问问题的时候或者说跟面试官说自己的规划的时候,不是直接说想做大数据,或者如何准备大数据,而是希望直接问具体的某个岗位如何准备或者选择,当有了这样比较具体的目标之后,自己准备起来也会更加高效和聚焦,如果能对大家有了这样的帮助,此篇文章的目的也就达到了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章