爲何需要數據血緣解決方案

原創

2020-07-08 05:03

在數據Show的這期節目中，記者採訪了Stitch Fix的軟件工程師Neelesh Salian，該公司結合了機器學習和人類專業知識進行了個性化購物的研究探索。隨着公司將機器學習集成到其產品和系統中，關鍵基礎技術開始發揮作用。這並不意外，因爲當前的機器學習和AI技術需要大量數據，尤其是用於訓練模型的標記數據。

同時還基於包括：安全性，隱私性，可靠性等因素的考慮，也鼓勵着各大公司投資一整套數據技術。在與數據工程師、數據科學家和AI研究人員的對話中發現，他們需要一套能幫助他們跟蹤數據血緣和數據溯源的解決方案，且對這個方案的需求越來越旺盛。美國舊金山灣區已有多家公司開始搭建數據血緣系統，其中包括Salian及其在Stitch Fix的同事。記者想借此機會了解他們是爲何決定搭建此類系統，以及正在構建何種功能。

以下是對話中的要點：

數據血緣並不是新概念

人們要了解數據在數據倉庫中如何被寫入以及如何與之交互，就需要知道數據血緣。

在描述數據血緣時，先講個故事：我們可以把數據的流動視爲數據之旅。數據進入數據倉庫前，經歷了一段旅程。這可以是事務數據，儀表板或數據建議。

數據收集過程中，唯一丟失的信息是數據是如何產生的。如果知道將數據放入數據倉庫或其他存儲設備的過程中，數據如何成爲現在的數據，這將對數據分析非常有用。

數據血緣將有助於數據質量問題的解決，有助於瞭解系統是否有損壞。在安全方面，考慮到GDPR，這就是在2018年倫敦Strata數據會議上聽到的熱門話題之一。

各大公司爲何突然開始建立數據血緣解決方案？

隨着時間的流逝，數據血緣系統變得越來越必要。它使數據更容易維護。可以利用數據血緣來進行審計跟蹤，保證數據安全性和合規性。同時，也有利於管理正在使用的數據集。如果你正在使用10個數據庫，則需要知道里面正在發生什麼。如果必須對數據血緣系統有所瞭解，可以將其視爲最終的數據圖形或某些數據集的視圖，它可以向你顯示其鏈路對象的圖形。然後，它會提供某些元數據信息，以便進行深入研究。假設損壞數據，或者調試代碼，所有這些案例都與要爲其構建的實際用例相關。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

爲何需要數據血緣解決方案

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

Uber是如何管理大規模數據工作流的？

數據治理的十五個最佳實踐

數據中臺送到家企業數字化轉型“輸血”變“造血”

Marquez，開源的元數據管理工具

爲何需要數據血緣解決方案

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結