为何需要数据血缘解决方案

在数据Show的这期节目中,记者采访了Stitch Fix的软件工程师Neelesh Salian,该公司结合了机器学习和人类专业知识进行了个性化购物的研究探索。随着公司将机器学习集成到其产品和系统中,关键基础技术开始发挥作用。这并不意外,因为当前的机器学习和AI技术需要大量数据,尤其是用于训练模型的标记数据。

同时还基于包括:安全性,隐私性,可靠性等因素的考虑,也鼓励着各大公司投资一整套数据技术。在与数据工程师、数据科学家和AI研究人员的对话中发现,他们需要一套能帮助他们跟踪数据血缘和数据溯源的解决方案,且对这个方案的需求越来越旺盛。美国旧金山湾区已有多家公司开始搭建数据血缘系统,其中包括Salian及其在Stitch Fix的同事。记者想借此机会了解他们是为何决定搭建此类系统,以及正在构建何种功能。

以下是对话中的要点:

数据血缘并不是新概念

人们要了解数据在数据仓库中如何被写入以及如何与之交互,就需要知道数据血缘。

在描述数据血缘时,先讲个故事:我们可以把数据的流动视为数据之旅。数据进入数据仓库前,经历了一段旅程。这可以是事务数据,仪表板或数据建议。

数据收集过程中,唯一丢失的信息是数据是如何产生的。如果知道将数据放入数据仓库或其他存储设备的过程中,数据如何成为现在的数据,这将对数据分析非常有用。

数据血缘将有助于数据质量问题的解决,有助于了解系统是否有损坏。在安全方面,考虑到GDPR,这就是在2018年伦敦Strata数据会议上听到的热门话题之一。

各大公司为何突然开始建立数据血缘解决方案?

随着时间的流逝,数据血缘系统变得越来越必要。它使数据更容易维护。可以利用数据血缘来进行审计跟踪,保证数据安全性和合规性。同时,也有利于管理正在使用的数据集。如果你正在使用10个数据库,则需要知道里面正在发生什么。如果必须对数据血缘系统有所了解,可以将其视为最终的数据图形或某些数据集的视图,它可以向你显示其链路对象的图形。然后,它会提供某些元数据信息,以便进行深入研究。假设损坏数据,或者调试代码,所有这些案例都与要为其构建的实际用例相关。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章