数据仓库中的元数据管理

本文主要介绍什么是元数据、为什么要管理元数据、怎样管理元数据。

1、什么是元数据?

      狭义的解释是用来描述数据的数据;广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息、数据都可以叫作元数据;

      按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。

元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和商业元数据。

技术元数据

存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据

  • 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容;
  • 业务系统、数据仓库和数据集市的体系结构和模式;
  • 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;
  • 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。

业务元数据

从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。

  • 企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到心中有数。
  • 多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。
  • 业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表示出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现。

      搭建数据仓库中最容易缺失的就是对元数据的管理,很少有数据仓库团队具备完整的元数据,当然搭建数据仓库的工程师本身就是活的元数据,但无论是为了用数据的人还是数据仓库自身的团队着想,元数据都不可或缺。一方面元数据为数据需求方提供了完整的数据仓库使用文档,帮助他们能自主地快速获取数据,另一方面数据仓库团队成员可以从日常的数据解释中解脱出来,无论是对后期的不断迭代更新和维护还是培训新的员工,都非常有好处,元数据可以让数据仓库的应用和维护更加高效。

2、为什么要管理元数据?

在数据管理领域,我们一直致力于让数据为我们提供价值,为此我们付出大量的努力和投入。
在过去二十年,各大企业都在着手搭建数据仓库。当我们费尽艰辛搭建好数据仓库并成功用于线上运行时,发现我们将花费更多时间为数据科学家、分析师做数据准备。分析他们的数据需求,提供闪闪发光的数据报表。这将占用数据维护人员80% 的时间投入,这个投入是偏高的,包含如沟通、反查、校正等大量重复和不必要投入。
如何提升数据管理能力?
我们需要回到这80% 的投入,想尽一切办法压缩它们,这样才能更快的提供数据服务。这时有种工具呈现出了优势,那就是“元数据”。
元数据,通常的定义为“描述数据的数据”。更准确一点说:元数据是描述流程、信息和对象的数据。这些描述涉及技术属性特征(例如,结构和行为)、业务定义(包括字典和分类法)以及操作特征(如活动指标和使用历史)。
我们用“元数据”去攻击这“80%”。将元数据做集中式管理,梳理元数据树,翻译、标注、补充元数据内容。方便使用者查找数据、理解数据、追踪溯源以及规范专业知识。降低数据准备期间沟通、反查、校正等大量重复和不必要投入,这样我们就可以留下更多的时间进行数据分析,不仅节省大量资金投入,还赚取更多的润。
以电信运营商为例,通过各个时期的IT 建设,公司有计费系统、网络系统、OA 系统、财会系统和客服系统等等。随着公司数据仓库项目建设完成,各系统核心业务数据都汇总到了大数据中心。本以为会大幅提升IT 系统的“智能性”,没想到基层的反应是根本用不起来。很多问题都来源于:缺乏针对数据的指导,业务逻辑把控不准确,各部门指标不统一,导致数据准备的成本较高。
继续以电信运营商为例,对于运营商的“当日用户数”这个指标,各个部门给出的定义并不一样:
在营业部每周例会上,各个部门对“当日用户数”争吵的面红耳赤,担负着业务压力的业务人员很可能谁也说服不了对方来接受自己的数字,不得不要求数据维护人员额外投入工作量去解析差异根源,校准报表数据。
这个问题按照元数据技术的术语来讲,就是在业务元数据上,大家对于业务的认识并不统一。这种问题会造成大量的时间成本浪费: 
元数据管理平台的建设就是为了避免出现这样的问题。建设元数据管理平台可以:

实现对技术元数据抽取、汇集、梳理,注释相关库表、列信息。支持查看完整数据链路和关联图谱。

梳理业务元数据,将相关的指标、流程在平台中建立起来,固化并传播企业专业知识。

将业务元数据同技术元数据联系起来,联通业务与技术,给业务管理人员和技术维护人员提供更详尽的指导。

就上文的举例来看,就可以在元数据管理平台上维护“当日用户数”等易混淆指标,规范其数据来源,将其同技术库表元数据关联起来并作详尽的注释。报表建设以元数据管理平台维护的业务知识为基准,这样报表数据有章可循、有理有据,消弭不必要的争吵,各部门专心分析报表数据,充分利用数据价值。
显而易见,元数据管理平台梳理企业资产、规范专业知识。推动元数据管理可以显著降低数据准备成本: 
元数据管理是基础
元数据管理可以梳理企业资产,规范专业知识,降低数据准备期间沟通、反查、校正等大量重复和不必要投入,辅助提升数据分析效率,是数据管理的基础。
如果你进行的数据处理越复杂,作为支撑的数据就需要更好。如果你同时兼顾了这两件事,才能让更多的人直接使用数据并为自己服务。很多时候我们往往“本末倒置”,碰到问题仅仅关注要如何解决,而忽略基础的准备,不仅增加复杂度和重复工作量,还会花费大量的沟通、理解的成本。
元数据管理是基础
额外的,元数据管理作为底层基础,能使我们在后续进行集成操作,如处理云;在混合环境中做数据集成;在重复环境中做大数据时,获取巨大的优势。事实上,将数据更快的交付给企业才是重点。
综上,为了更快的数据分析和支撑业务,IT 中心的能力至关重要,因为它就是“80%”投入的来源。那么什么使一个成功的IT中心变得更加卓越。

3、怎样进行元数据管理

待续

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章