【數據治理相關概念】(一)名詞概念

數據字典 Data Dictionary

是一種用戶可以訪問的記錄數據庫和應用程序源數據的目錄,用規範化的,無二義性的語言表達數據流程圖的各組成部分,是對數據流程圖各個組成部分的詳細數據說明,也是表達新系統邏輯模型的主要工具之一。包括主動數據字典(active data dictionary)和被動數據字典(passive data dictionary),前者是指指在對數據庫或應用程序結構進行時,其內容可以由DBMS自動更新的數據字典,後者是指修改時必須手工更新其內容的數據字典。 ——DMBOK 1.0

數據目錄 Data Catalog

作爲一種主動數據字典,用以幫助用戶找到滿足自身需求的數據來源並且幫助他們理解利用數據源進行挖掘的過程,同時也幫助企業在現有的數據源下實現更多的收益。多數關係型DBMS剷平將數據目錄設置爲關係型表格的形式。——Wikipedia

數據血緣 Data Lineage

通常是數據生命週期的一種,包括數據的起源以及到當前位置的完整路徑描述,幫助用戶分析信息的使用過程並且追溯在每一個節點上有特定用途的信息。——DMBOK 1.0

血緣分析 Linage Analysis

也即血統分析,是通過對數據處理過程的全面追蹤,從而找到以某個數據對象爲起點的所有相關數據對象以及這些元數據對象之間的關係。它是對數據對象內在關係的一種映射,同時,還結合了時間順序、遞次關係,也能夠反映出一定的相關性和因果關係。——Wikipedia

影響分析 Influence Analysis

不同於血緣分析(血統分析)通過回溯的方式找到所有元數據對象以及這些元數據對象之間的關係,影響分析是基於某個數據對象,尋找依賴於該對象的處理過程或其它數據對象,並在某些數據對象發生變化或者需要修改時,評估其影響範圍。 ——Wikipedia

非結構化數據 Unstructured Data

用來描述具有高度可變數據類型和格式的任何數據(尚未標記或記錄於行和列的數據),如文件、圖形、圖像、文字、報表、表格、視頻、或錄音,具有數據格式多樣、數據冗餘度高、數據規模大等特點。——DMBOK 1.0

數據倉庫 Data Warehouse

是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合用於支持管理決策。其主要功能是將組織透過資訊系統之聯機事務處理(OLTP)經年累月累積的大量資料,透過數據倉庫理論所特有的資料存儲架構,作一有系統的分析整理,以利各種分析方法如練級分析處理(OLAP)、數據挖掘(Data Mining)之進行,並進而支持如決策支持系統(DSS)、主管資訊系統(EIS)之創建,幫助決策者能快速有效地自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應外在環境變動,幫助構建商業智能(BI)。——《Building the data warehouse》W.H.Inmon

數據集市 Data Mart

是企業級數據倉庫的一個子集,他主要面向部門級業務,並且只面向某個特定的主題,按照多維的方式進行存儲,包括定義維度、需要計算的指標、維度的層次等,生成面向決策分析需求的數據立方體。——Wikipedia

數據地圖 Data Mapping

數據地圖作爲數據融合的第一步,指在數據倉庫中使用一系列嚴格定義的數據連接不同的數據模型。數據定義可以爲任意的原子單位,比如一個單位的元數據,而數據的連接遵從一系列依賴於該模型閾值的標準。——Wikipedia

數據湖

數據湖是以其自然格式存儲的數據的系統或存儲庫,通常是對象blob或文件。數據湖通常是企業所有數據的單一存儲,包括源系統數據的原始副本,以及用於報告、可視化、分析和機器學習等任務的轉換數據。數據湖可以包括來自關係數據庫(行和列)的結構化數據,半結構化數據(CSV,日誌,XML,JSON),非結構化數據(電子郵件,文檔,PDF)和二進制數據(圖像,音頻,視頻)。——Wikipedia

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章