虎牙直播是怎样建设数据中台的?

最近几年,“中台”概念很火,尤其是数据中台,它成为企业发挥数据价值的重要支柱。虎牙通过数据中台的建设不仅解决了以前面临的数据问题,而且构建了自己的数据中台能力,带来不错的收益。数据中台和技术中台的区别是什么?数据中台的建设会面临哪些挑战?如何解决数据治理上遇到的难题?… 带着这些疑惑,InfoQ 记者采访了 ArchSummit 全球架构师峰会讲师虎牙数据技术部高级经理谭安林。

谭安林在虎牙负责数据中台建设,围绕数据治理、数据服务两个方面,打造面向对内团队的数据开放能力。据悉,虎牙自顶向下成立了中台委员会,该委员会在近 1 年的时间中极大推动了虎牙内部的中台化建设历程。

数据中台与技术中台的区别

在谭安林看来,数据中台和技术中台有着较大区别。

技术中台

技术中台,这是着重于各类技术服务的抽象、封装、开放,其效应是达成新业务、新功能的灵活快速组建,相关服务有专门团队运维以达成稳定性保障,最终形成网状的、丰富的服务调用生态。它是各个技术团队技术成果共享的有效方式。

数据中台

数据中台的核心不在于大数据平台技术的运维和开放,而是着重于数据本身。其核心点在于,如何利用大数据技术实现数据内容与开放能力的建设,以满足不同层次的中台客户对数据的需求。而这些中台客户,包括业务产品与运营、数据分析人员、数据挖掘人员以及技术线的研发人员。

从数据中台面向受众着力,需要解决的是让这些人员,如何在合法合规的基础上,方便、有效地去找到数据并理解数据,最后使用数据。

虎牙数据中台建设的背景和诉求

虎牙公司旗下既有国内游戏直播平台虎牙直播,也有风靡东南亚和南美的 Nimo TV,“随着业务线的拓展以及业务在全球的持续展开,对数据的需求日益旺盛”。

同一场景,不同角色人员对某一场景都有一定程度的数据需求,因工作方向的着力点不同,故对数据的信息量、聚合度有一定差异。虎牙公司是有专门的底层平台支撑团队,底层能力包括但不限于上报 SDK、接入通道、以及大数据计算平台等。当不同人员各自规划一些数据需求,通过底层平台去实现数据采集、清洗、计算这样的工作,这就会导致两大问题:

  1. 同一个场景出现多源头数据,产生源头一致性问题以及资源浪费问题;
  2. 同一份源头数据被不同逻辑处理解读导致出现结果一致性问题,从而引起数据信任危机。

此外,在业务发展过程中,有些数据需求是现有数据无法满足的,存在多个技术团队有相同需求,而彼此之间因为所属不同部门、工作职责不同,其信息分析、数据共享的机制欠缺,所以多个团队去获取同一份数据,导致工作重叠和成本浪费。

谭安林还提到,在新业务起步阶段,“数据是欠缺的”。因此,如何在新业务起步阶段,快速拥有两个能力变得尤为重要:

  • 能力一,基础数据决策能力,以数据驱动业务的发展,而不是完全靠运营同学凭借人工经验;
  • 能力二,基础数据采集分析能力,即如何让新业务采集数据更快、更准地达成,让运营报表可尽早落地,经营分析可尽早切入。

“前者是一个数据跨域应用的问题,后者是一个数据体系快速搭建的问题”。

他说,“针对这样的一些问题,数据中台就是当前的解法。”目标是囊括内部业务数据以及外部可用数据集、输出具备一致性、有质量、易理解的数据内容体系,达成数据共享。降低工作重叠、规避成本浪费效应,进而助推数据决策在虎牙业务上更深度、更广度的应用。

虎牙的业务场景特点

一直以来,虎牙深耕游戏直播领域,同时也在发力秀场、户外、体育等多个方向。简言之,虎牙的业务场景涉及直播多个方面,存在业务多样性、地域多样性的特色。

针对不同业务场景,我们大致可以分为两部分:结构化数据需求和非结构化数据需求。

特点 1:结构化数据需求

传统来说,经营分析、内容推荐、广告推荐等需求场景,它们被归为结构化数据需求,其涉及多个产品、每个产品多个端,同时也涉及到客户端、服务端、数据库同步等多个纵深数据采集接入。

解决方案

怎样解决对结构化数据的需求?谭安林表示,面对纷杂的数据接入点,以及多样的数据需求,虎牙在底层接入通道、大数据计算平台的基础上,构建了中台相关产品,包括面向采集的数据接入管理平台,面向应用的数据地图和 WebIDE 探索工具。

以产品化工具的形式,切入到数据从产生到应用链路,驱动业务产品、研发、测试参与数据接入环节,并以数据地图的形式开放,让数据技术人员能够易检索、易理解目标数据,在底层数据资源的基础上通过 WebIDE 进行研究应用。

特点 2:非结构化数据需求

虎牙还在 AI 领域发力,不仅有 AI 美颜、AI 风控,而且也在数字人方向进行研究应用,比如晚玉等数字人形象。谭安林称,在传统直播模式的基础上,大力探索 AI 方向的新玩法。

相比经营分析等场景,AI 场景的数据需求大为不同,“这也是结构化数据场景、非结构化数据场景本质的不同,一些传统场景强依赖于结构化的行为数据等,但是数字人这类创新内容生产领域等强依赖于非结构化的图片音频等数据”。

谭安林指出,随着业务和技术的深入,例如推荐等一些看似经典的场景,也越来越需要非结构化数据结构化后提供更丰富的信息以提升性能。因此,非结构化数据能力的补齐,也是数据中台的一大特点。

解决方案

为此,在非结构化数据方面,他们不仅在数据采集方面覆盖相关环节,而且着重针对非结构化数据进行结构化信息的融合,形成非结构化数据的业务融合层,并基于内外部的 AI 能力进行标注,实现 AI 元数据。

在产品化工具方面,则提供基于结构化标签筛选非结构化数据的能力,这对 AI 方向的数据研发起到了显著加速的作用。

虎牙数据中台的架构

据悉,虎牙的数据中台是在大数据计算存储平台 hadoop 以及云上对象存储的基础上构建,划分为 I、P、S 三层结构。

I 层侧重于数据资源层建设,包括结构化和非结构化数据,由数据接入管理平台、数据目录管理系统、数据地图产品、数据探索 WebIDE、网盘共享工具等部分组成,围绕数据接入、非结构化与结构化融合、数据治理和底层数据开放等核心点。

P 层侧重于数据资产层建设,包括主题式数据服务、跨域数据标签,由数据交换消费系统、自助式 API 系统等组成,围绕跨域能力、系统服务化等核心点。

S 层侧重于具象数据产品应用,面向产品、运营或技术人员直接提供数据报表、分析结论,包括海思报表服务、自助提数服务、数据 CUBE 设计、自助分析系统等。

谭安林总结道,层次的划分,是便于各层可以聚焦打磨能力,从而形成整体的数据中台竞争力。每一层的建设,围绕自身目标和核心点,形成闭环和开放的迭代机制。I 层厚在数据资源整合,P 层宽在开放能力多样,S 层快在场景敏捷应用。

虎牙数据中台建设面临的挑战

虎牙建设数据中台主要面临两大挑战:

  • 一是结构化方面纷杂的接入源以及多样化的数据需求情况下如何形成通用化的中台开放能力;
  • 二是非结构化情况下如何构建通用数据资源并便于使用。

而最大的难点在于,在数据中台建设历程中,团队需要去思考数据中台的工作边界,中台客户能做什么,不能做什么,核心要去做哪些

他表示,有一个原则是“中台客户能做的,少去做,甚至不要去做”。

结构化数据仓库方面,从埋点设计、研发测试、接入清洗、仓库建模、数据应用链路 5 个环节来说,数据中台团队的核心工作是在接入清洗、仓库建模两个环节。这两个环节是承接接入源,构建通用的数据仓库层,并提供仓库层数据的开放,属于不得不去做的事情,也是持续投入的重要环节。

埋点设计和研发测试两个环节的主要参与方不是数据中台团队,而是由产品 & 数据分析师根据产品功能规划、数据分析需求等进行设计埋点明细,研发测试环节是业务研发在埋点设计基础上进行代码开发、业务测试进行验收上线核准。在这两个环节中,数据中台的价值是辅助各角色更好的完成相应环节的工作,而不是替代他们完成相关工作。故而数据中台团队制定了公司级的上报协同管理规范,并在底层接入通道基础上研发了数据接入管理平台,用于规范化这两个环节的过程与产出。

而在数据应用环节,因应用场景多样性、差异性,存在较多独立数据应用团队,比如经营分析、商业分析、推荐算法团队、AB 测试、AI 图形等团队。数据中台团队在这个环境,同样是以打辅助的角色切入,而不是替代的方式。

谭安林说,“和这些团队深入交流,我们发现一些现象,举一些例子:想要一个数据不知道如何去找、多个相似的数据不知道用哪个、某个数据是否有质量问题、某个指标是怎么加工计算的、结果数据如何方便集成使用。“总结一下就是三点:找数据、辨数据、用数据

虽然业界数据目录是一个办法,但其主要侧重于技术型元数据如存储路径、存储大小、表 schema 等信息,要满足中台客户自助式检索数据,这还不够。虎牙的做法是通过接入管理平台辐射全公司,形成了完整的接入源覆盖,通过程序化以及人工标注方式,构建了面向业务理解的业务元数据信息,比如业务划分、过程定义、事件上报时机、值逻辑性说明等,再辅以数据地图产品化手段提供“找”的能力。

除了技术元数据 + 业务元数据信息的供给,中台的数据治理团队针对开放数据进行了质量分析评估和监控,在数据地图上呈现质量信息,从表、分区,乃至字段都有呈现,比如在字段上,会对值域范围、值分布等进行评估,以可视化的方式呈现给中台客户。

在底层 hive/presto 的能力基础上,研发了与数据地图打通的 WebIDE 探索工具,并针对数据交换场景研发了通用调度工具。“非结构化数仓方面也是类似。切入 AI 团队数据准备、效果验证环节中,提供数据资源以及元数据信息,并实现检索性的产品化服务”。

数据治理怎么做?

数据治理是一个比较大的课题,谭安林认为,最关键的点是让中台客户“信任”数据中台开放的数据。他说,“常规的数据治理做法是偏过程性的做法,业界也很常见,像存储效率、计算效率、血缘合理性这类,但是这些都是站在平台视角出发,更多着重于成本。”

而虎牙,除了业务常规做法外,在过程性方面建立了数据仓库建模规范,细化从 ods-dwd-dwt-dwb-dwa-ods 的建模细则,并且在仓库建模过程中,根据主题化规划,进行模型拓扑设计、定期评审整合,以此达成模型拓扑合理性以及复用效应。

在结果性方面,分成“源”和“果”两个层面:

  • “源”方面,针对接入数据源,采取了准入机制。数据需求人可在数据接入管理平台录入数据埋点等需求,在测试验收阶段可使用平台提供的消息筛选、自助校验等工具进行验收准入,在上线后,平台会自动根据需求和验收情况对线上数据进行跟踪监控,让源的质量显性可视,主要呈现在接入管理平台。
  • “果”方面,针对开放数据,包括表、指标,提供数值性校验能力和指标对比性校验能力,开放给中台客户可见,以达成“果”的质量显性可视,主要呈现在数据地图产品。

建设数据中台的收益

短期收益

对虎牙而言,短期来看,数据中台的建设,解决了接入源纷杂、接入职责不清晰等现象带来的数据源质量问题,也一定程度满足了数据应用团队的数据需求,围绕着“找数据、辨数据、用数据”三点降低了数据理解门槛,提升了应用团队工作效率。

长期收益

长期来看,这让虎牙建立了行之有效的数据上报规范、数据建模规范和中台化开放能力,也形成了中台化数据资源以及跨域的数据资产的构建机制,从而对现有业务实现更快速支撑,对新业务更能起到冷启动支持。另外,还形成了一个基础的、通用的数据层,实现了核心数据资产的沉淀,这对一家互联网企业来说是具备宝贵战略价值的。

在采访最后,谭安林说,“现阶段来说,虎牙的数据中台在结构化和非结构化方向皆取得一定突破,在公司内部服务了各个业务线以及技术团队。比如数据接入平台覆盖公司所有产品线,数据地图每周服务四五百人,而数据资产也被广泛使用。”

个人收获

对于个人,他称有两个大的收获:一是从 0 到 1 构建了数据中台能力,实践出真知,需要深入中台客户痛点,才能分析问题本质,进而指导我们的建设方向,而非照搬业界经验;二是思维上的转变,捋清楚短期痛点与长期目标之间的区别与关联,面向长期目标持续投入人力以实现里程碑的突破,在短期痛点上聚焦人力以解决临时矛盾。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章