数据驱动型项目的“杀手鐗”:活化元数据

活化元数据是什么?

它为何如此重要?

 

“在过去的几年中,我们经常引用类似雪崩、海啸等比喻来描述我们所经历的数据增长趋势,后来虽然我们逐渐不再引用这类的比喻,但数据增长的潜在问题却依然真实存在。我们访问的数据作为机构的一部分,它的体量和复杂程度在以指数级增长。为推动数字化转型,数据管控的工作量也在迅速增加。

 

即便只考虑单一的类别属性,不同的数据集也可能有多种数值。有些数据集包含的性别属性可能有3种值,有些是5种,其他一些可能是10种。这时,我们就需要元数据来帮助我们解释不同数据集之间的数据变化情况,并能够将数据作为一个整体来理解。数字化转型进程中要求我们理解数据,并且创新、高效地去使用数据,而在此过程中,能帮助我们提升数据驱动型项目效率的关键组件就是活化元数据。”

 

 

活化元数据是架构完善的数据管理系统的关键基础和语义层,它在数据项目的整个生命周期中提供了令人惊喜的效用。元数据提供了一种理解企业中所有可用信息的方式,如果将机器学习技术叠加和集成到元数据上,利用人类的知识来扩展元数据的内容,并激活元数据的能力,其价值将更加凸显。它能够实现更多数据管理过程的智能化和动态化。例如,元数据可以标识出丢失、错误或异常的数据,这有助于提升分析质量,以及对支撑报告的数据进行自动更正和补充完善,从而提高决策水平,同时,还能避免产生一些重大错误。

 

 

如何实现元数据效益的最大化

 

 

在复杂多变的数据环境下, 对于元数据的充分利用是非常必要而迫切的,为了实现元数据基础效益的最大化,首先需要挖掘四种主要类型的元数据:

● 技术

数据库架构、映射及代码、转换、质量检查

 

● 业务

术语表词汇、治理流程、应用程序和业务语境

 

● 操作和基础架构

运行时间统计信息、时间戳、数量指标、日志信息、系统及位置信息

 

● 使用情况

用户评级、注释、访问模式

 

紧接着,将这四类元数据合并到一个通用、共享的元数据层,该过程包括三个步骤:

01

收集

通过云和企业本地部署从企业的所有数据系统中扫描元数据,包括数据库和文件系统、集成工具和流程以及分析和数据科学工具,并且具有高保真度。

 

02

组织

使用词汇表术语、概念、关系和流程记录数据的业务视图。利用此业务语境扩充收集的元数据。以评级、评论和认证的形式收集用户意见,以帮助评估数据资产对其他用户的有用性。

 

03

推断

应用智能来获取在收集的元数据中不明显的关系,包括数据沿袭,数据相似性并为不同类型的用户排列最有用的数据集。

 

通过采集技术、业务、运营和使用情况方面的元数据,我们可以创建关于企业数据资产以及这些数据资产之间相互关系的知识图谱。当您应用人工智能和机器学习技术,并将其与数据管理解决方案集成在一起时,元数据图谱就被激活了。活化的元数据使用户可以面向分析、数据科学、治理以及其它几乎任何用途,方便、有效、自动地搭建、部署和运行数据管理应用。

 

 

 

如何获取活化元数据

 

 

为使企业能够开发出安全、有效和简练的数据应用程序,并充分利用目前企业可用的海量数据,活化元数据是不可或缺的。现在,就有一种很好的方式来获取活化元数据,即创建企业数据目录并确保将它集成到您的数据过程中。事实上,权威分析机构Gartner也建议:“有倾向性地去选择数据集成工具供应商,这些供应商应能展示出清晰的路线图,显示元数据驱动的机器学习技术如何实现更好的业务成果或服务。”

 

以下为活化元数据所能给企业提供的便利:

● 识别出适用于特定业务用途的合适数据

● 基于学习到的模式以及根据外部变化所做的调整,自动实现系统集成

● 为数据提供业务上下文语境,用于增强对分析方法的信心

● 查找客户、产品、供应商等主数据模型的属性所在位置,并进行补充完善

● 利用文档形式记录并识别数据,以推动协同化数据治理及合规性处理

● 突出标示数据质量、数据隐私问题以及数据对治理条例的符合程度

● 减少数据集成管道的开发和维护工作量

● 利用数据关系,为丰富数据科学模型确定新的功能特性

● 通过向用户提供合适的数据语境,使自助服务成为可能

 

数据被视为企业的“流通资产”,它可以推动所有数字化转型活动,尤其是数据驱动型项目的发展。而通过建立一个智能元数据层,即可针对快速增长的数据,构建、推断、补充完善和提供深入见解,同时还能最大程度地利用数据并实现数据最大价值,进而加速推动企业数字化转型。

发布了101 篇原创文章 · 获赞 9 · 访问量 1万+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章