數據中臺(數據資產管理篇)

數據資產管理

聲明:本文歸屬一寸HUI所有。@一寸HUI

在上一篇文章數據中臺(架構篇)中瞭解到了數據中臺的架構,其中我們一個很重要的部分就是要構建數據資產管理,這部分我們就來了解下什麼什麼數據資產,數據資產管理了什麼。

數據資產管理介紹

1.定義

在明白數據資產管理之前,要明白管理的數據資產是什麼?

數據資產”定義爲:“由企業擁有或控制的,能夠爲企業帶來未來經濟利益的,以物理或者電子的方式記錄的數據資源,如文件資料、電子數據等。”

從上面的數據資產定義來看,數據資產具有如下3個特徵:

1)“企業擁有或控制”。 這個特徵指明數據是有其主體的,同時也說明數據資源既可能來源於企業內部的信息系統或者日常經營活動的沉澱, 可能是企業通過外部的交換、購買等手段獲取的。
2)“能帶來未來經濟利益”。 這個特徵清楚表明,在企業中,並非所有的數據都構成數據資產,數據資產是能夠爲企業產生價值的數據資源。
3)“數據資源”。 這個特徵表明數據資產的存在形態,是以物理或者電子方式記錄下來的數據。

數據資產管理”的定義爲:“規劃、控制和提供數據及信息資產的一組業務職能,包括開發、執行和監督有關數據的計劃、政策、方案、項目、流程、方法和程序,從而控制、保護、交付和提高數據資產的價值。”

數據資產管理在數據中臺架構中處於中間位置,介於數據開發和數據應用之間,處於承上啓下的重要地位。數據資產管理對上支持以價值挖掘和業務賦能爲導向的數據應用開發,對下依託大數據平臺實現數據全生命週期的管理,並對企業數據資產的價值、質量進行評估,促進企業數據資產不斷自我完善,持續向業務輸出動力。

2.數據資產管理現狀和挑戰

缺乏統一的數據視圖:數據資源分佈在企業的多個業務系統中,分佈在線上和線下,甚至分佈在企業的外部。

數據基礎薄弱:大部分企業的數據基礎還很薄弱,存在數據標準混亂、數據質量參差不齊、各業務系統之間數據孤島化嚴重、沒有進行數據資產的萃取等現象,阻礙了數據的有效應用。

數據應用不足:受限於數據基礎薄弱和應用能力不足,多數企業的數據應用剛剛起步,主要在精準營銷、輿情感知和風險控制等有限場景中進行了一些探索,數據應用的深度不夠,應用空間亟待開拓。

數據價值難估:企業難以對數據對業務的貢獻進行評估,從而難以像運營有形資產一樣運營數據。產生這個問題的原因有兩個:一是沒有建立起合理的數據價值評估模型;二是數據價值與企業的商業模式密不可分,在不同應用場景下,同一項數據資產的價值可能截然不同。

缺乏安全的數據環境:數據的價值越來越得到全社會的廣泛認可,但隨之而來的是針對數據的犯罪活動日漸猖獗,數據泄露、個人隱私受到侵害等現象層出不窮。很多數據犯罪是由安全管理制度不完善、缺乏相應的數據安全管控措施導致的

數據管理浮於表面:沒有建立一套數據驅動的組織管理制度和流程,沒有建設先進的數據管理平臺工具,導致數據管理工作很難落地。

數據資產管理

1.目標

可見:通過對數據資產的全面盤點,形成數據資產地圖。針對數據生產者、管理者、使用者等不同的角色,用數據資產目錄的方式共享數據資產,用戶可以快速、精確地查找到自己關心的數據資產。

可懂:通過元數據管理,完善對數據資產的描述。同時在數據資產的建設過程中,注重數據資產業務含義的提煉,將數據加工和組織成人人 可懂的、無歧義的數據資產。具體來說,在數據中臺之上,需要將數據資產進行標籤化。標籤是面向業務視角的數據組織方式。

可用:通過統一數據標準、提升數據質量和數據安全性等措施,增強數據的可信度,讓數據科學家和數據分析人員沒有後顧之憂,放心使用數據資產,降低因爲數據不可用、不可信而帶來的溝通成本和管理成本。

可運營:數據資產運營的最終目的是讓數據價值越滾越大,因此數據資產運營要始終圍繞資產價值來開展。通過建立一套符合數據驅動的組織管理制度流程和價值評估體系,改進數據資產建設過程,提升數據資產管理的水平,提升數據資產的價值。

2.數據資產管理vs數據治理

數據治理(Data Governance,DG)是指對數據資產管理行使權力和控制的活動集合(規劃、監督和執行)。傳統的數據治理內容通常包含數據標準管理、元數據管理、數據質量管理、數據安全管理、數據生命週期管理等內容

數據治理的目標是保障數據資產的質量,促進數據資產的價值創造。這個根本目標可以分解成以下6項:

  • 提升數據質量,幫助做出基於數據的更高效、更準確的決策;
  • 構建統一的、可執行的數據標準;
  • 良好地響應數據生產者、消費者、數據處理技術人員等數據利益相關者的需求,如保護好客戶(數據生產者)的數據隱私和數據安全;
  • 培訓組織內所有的管理層和員工,讓大家採用共同的解決數據問題的辦法;
  • 實現可重複的數據管理流程,並確保流程透明;
  • 實現數據的可持續運營、數據資產的增值。

數據治理的6個原則:

  • 標準化原則:數據標準化是實現高價值數據、支撐以數據爲基礎的相關業務的先決條件。組織必須制定可參考、可落地的標準。
  • 透明原則:除了一些需要保密的安全措施之外,數據治理相關的文件、數據問題的發現等,都應該是公開透明的,相關人員應該清楚正在發生的事情,以及事情發生後應如何按照原則處理。
  • 數據的認責與問責:數據治理必須解決無人問責的問題,比如將很多崗位列爲負責人,最終卻沒有人真正負責。數據的認責是數據治理的先決條件,數據的問責和考覈制度是確保數據治理工作真正落地的制度保障。
  • 平衡原則:在大數據時代,時時刻刻都在湧現海量數據。在進行數據治理工作的過程中,必須在代價和收益之間取得平衡。往往沒有必要追求百分之百的數據質量,而對於歷史遺留數據,數據標準也不可能對其進行完全約束。很多時候,對於企業來說,數據可商用是平衡原則的重要參考。
  • 變更原則:隨着市場和業務的不斷髮展,數據標準、元數據、數據質量等要求並不是一成不變的,既要控制數據的變更流程,也要主動適應這些變化,推動標準更新。
  • 持續改進原則:業務在不斷變化,數據在持續產生,數據治理非朝夕之功,需要持續推動,不斷改進,形成長效機制。

數據治理和數據資產管理的定義有異曲同工之處,它們圍繞的對象都是數據資產。數據標準管理、元數據管理、數據質量管理和數據安全管理等同時也屬於傳統數據治理的必要工作內容。數據資產管理在傳統數據治理的基礎上,加入了數據價值管理、數據共享管理等內容。可以這麼理解:數據資產管理就是傳統的數據治理的升級版,可以認爲是數據治理2.0。

3.數據資產管理職能

《數據資產管理實踐白皮書4.0》中規定,數據資產管理的管理職能包括數據標準管理、數據模型管理、元數據管理、主數據管理、數據質量管理、數據安全管理、數據價值管理和數據共享管理共8個方面。而在數據中臺中,還可以包括數據資產門戶、生命週期管理、 標籤管理3個新的管理職能。

1.數據標準管理

大數據的標準體系框架共由7個類別的標準組成,分別爲基礎標準、數據標準、技術標準、平臺和工具標準、管理標準、安全和隱私標準及行業應用標準。

數據標準是對數據的表達、格式及定義的一致約定,包含數據業務屬性、技術屬性和管理屬性的統一定義;數據標準的目的是使組織內外部使用和交換的數據是一致的、準確的。通常可分爲業務術語標準,參考數據和主數據標準,數據元標準,指標數據標準。

  • 業務術語是被批准、管理的業務概念定義的描述,需要通過流程來定義組織如何創建、審批、修改和發佈統一的業務術語。
  • 參考數據是用於將其他數據進行分類或目錄整編的數據,可以簡單理解爲是數據字典,是數據可能的取值範圍。
  • 主數據是組織中需要跨系統、跨部門共享的核心業務實體數據。主數據因爲其重要價值,被喻爲企業的黃金數據記錄,如多個系統共享的客戶、商品等核心業務實體數據。
  • 數據元是用一組屬性描述其定義、標識、表示和允許值的數據單元,是描述數據的最基本單元。數據元由3部分組成:對象類、特性、表示值域和數據類型的組合。
  • 指標數據是組織在經營分析過程中衡量某一個目標或事物的數據,一般由指標名稱、指標解釋、時間限定、其他條件限定、指標數值等組成,如企業的人均利潤率、季度離職率等。

數據標準管理是指數據標準的制定和實施的一系列活動,關鍵活動包括:

  • 理解數據標準化需求;
  • 構建數據標準體系和規範;
  • 規劃制定數據標準化的實施路線和方案;
  • 制定數據標準管理辦法和實施流程要求;
  • 建設數據標準管理工具,推動數據標準的執行落地;
  • 評估數據標準化工作的開展情況。

數據標準化的難題和應對方案:

一是制定的數據標準本身有問題。 有些標準一味地追求先進,向行業領先者看齊,標準大而全,脫離實際的數據情況,導致很難落地。

二是在標準化推進過程中出了問題。 這是筆者重點闡述的原因,主要有以下幾種情況:

  • 對建設數據標準的目的不明確
  • 過分依賴諮詢公司
  • 對數據標準化的難度估計不足
  • 缺乏落地的制度和流程規劃
  • 組織管理水平不足

應對方案:

  • 第一,制定可落地的執行方案。 執行方案要側重於可落地性,不能落地的方案最終只能被廢棄。一個可落地的方案要有組織架構和人員分工,每個人負責什麼,如何考覈,怎麼監管,都必須納入執行方案中。
  • 第二,正確認識數據標準建設的目, 即是統一組織內的數據口徑,指導信息系統建設,提高數據質量,更可信地處理和交換數據,而不是應付上級和監管機構的檢查。
  • 第三,正確認識諮詢公司在數據資產管理工作前期的作用。 諮詢公司的定位應該是準確評估組織的數據管理水平,制訂可以落地的方案,而不應一味地追求諮詢輸出物的技術含量。
  • 第四,充分認識到數據標準化的難度。 要取得管理決策層的支持,提升組織管理水平,做好長期推進的工作準備,建立起數據標準化的工作制度和流程,遇到問題通過正式的流程和溝通機制逐步解決。
  • 第五,實際落地中,建立起科學可行的數據標準落地形式。

2.數據模型管理

數據模型是指對現實世界數據特徵的抽象,用於描述一組數據的概念和定義。數據模型從抽象層次上描述了數據的靜態特徵、動態行爲和約束條件。

數據模型管理主要是爲了解決架構設計和數據開發的不一致,而對數據開發中的表名、字段名等規範性進行約束。數據模型管理一般與數據標準相結合,通過模型管理維護各級模型的映射關係,通過關聯數據標準來保證最終數據開發的規範性。理想的數據模型應該具有非冗餘、穩定、一致和易用等特徵。

數據模型按不同的應用層次分成概念數據模型、邏輯數據模型、物理數據模型3種。

  • 概念模型是一種面向用戶、面向客觀世界的模型,主要用來描述世界的概念化結構,與具體的數據庫管理系統無關。
  • 邏輯模型是一種以概念模型的框架爲基礎,根據業務條線、業務事項、業務流程、業務場景的需要,設計的面向業務實現的數據模型。邏輯模型可用於指導在不同的數據庫管理系統中實現。邏輯數據模型包括網狀數據模型、層次數據模型等。
  • 物理模型是一種面向計算機物理表示的模型,描述了數據在存儲介質上的組織結構。物理模型的設計應基於邏輯模型的成果,以保證實現業務需求。它不但與具體的數據庫管理系統有關,而且還與操作系統和硬件有關,同時考慮系統性能的相關要求。

數據模型管理的關鍵活動包括:

  • 定義和分析企業數據需求;
  • 定義標準化的業務用語、單詞、域、編碼等;
  • 設計標準化數據模型,遵循數據設計規範;
  • 制定數據模型管理辦法和實施流程要求;
  • 建設數據模型管理工具,統一管控企業數據模型。

數據模型是數據資產管理的基礎,一個完整、可擴展、穩定的數據模型對於數據資產管理的成功起着重要的作用。通過數據模型管理可以清楚地表達企業內部各種業務主體之間的數據相關性,使不同部門的業務人員、應用開發人員和系統管理人員獲得關於企業內部業務數據的統一完整視圖。

3.元數據管理

元數據(Metadata)是描述數據的數據。元數據按用途不同分爲技術元數據、業務元數據和管理元數據。詳情見數據中臺(元數據篇)

4.主數據管理

主數據(Master Data)是指用來描述企業核心業務實體的數據,是企業核心業務對象、交易業務的執行主體,是在整個價值鏈上被重複、共享應用於多個業務流程的、跨越各個業務部門和系統的、高價值的基礎數據,是各業務應用和各系統之間進行數據交互的基礎。

主數據管理(Master Data Management,MDM)是一系列規則、應用和技術,用以協調和管理與企業的核心業務實體相關的系統記錄數據。主數據管理的主要內容包括如下幾項。

  • 主數據相關標準及規範設計:主數據的標準和規範是主數據建設的核心工作,需要企業抽調專業人員集中精力進行梳理和彙總,建立一套完整的標準體系和代碼庫,對企業經營活動中所涉及的各類主數據制定統一數據標準和規範,如數據模型標準、數據編碼標準、主數據接口標準等。
  • 主數據建模:對主數據進行數據模型設計,建立主數據架構的物理模型,包括數據屬性的定義、數據結構設計、數據管理定義等方面,通過數據發佈來創建數據存儲實體。
  • 主數據梳理與集成:根據主數據標準規範,依託於數據集成平臺以及主數據質量模塊,輔助業務部門將現有的主數據內容重新進行數據編碼、數據轉換、數據清洗等,形成企業標準的主數據庫。
  • 主數據質量管理:對主數據系統中的數據質量進行統一閉環管理,覆蓋數據質量的定義、監控、問題分析、整改和評估,推動質量問題的解決。圍繞數據質量管理,建立考覈機制,提升數據資產的業務價值;在數據清洗過程中,進行數據質量的管理,並生成數據質量報告,提供數據質量管理服務。
  • 建立靈活的主數據共享服務:主數據的特殊性決定了主數據與業務系統需要頻繁的數據共享,主數據管理系統需提供靈活的服務接口,保證能夠快速實現數據集成且最大程度減少集成成本。
  • 建立主數據維護流程:協助梳理企業內主數據管理相關流程,明確流程流轉方向,以及各環節表單及責任人,並在主數據系統中進行流程配置,逐步實現梳理成果的自動化落地,在主數據系統中實現跨業務部門的流程貫通。

5.數據質量管理

做數據質量管理,首先要搞清楚數據質量問題產生的原因。原因有很多方面,比如技術、管理、流程等。

圍繞完整性、準確性、一致性、及時性監控分析數據質量問題、提升企業數據質量。 從數據接入、數據加工、數據導出、指標、數據應用實現全鏈路血緣跟蹤、提前預判數據是否能夠準時產出、瞭解任務失敗後影響分析以及快速地修復。做到事前控制,事中處理,事後追蹤。

數據質量評估的標準:

  • 準確性: 描述數據是否與其對應客觀實體的特徵一致。
  • 完整性: 描述數據是否存在缺失記錄或缺失字段。
  • 一致性: 描述同一實體同一屬性的值在不同的系統中是否一致。
  • 有效性: 描述數據是否滿足用戶定義的條件或在一定的取值範圍內。
  • 唯一性: 描述數據是否存在重複記錄。
  • 及時性: 描述數據的產生和供應是否及時。
  • 穩定性: 描述數據的波動是否穩定,是否在其有效範圍內。
  • 連續性: 描述數據的編號是否連續。
  • 合理性: 描述兩個字段之間邏輯關係是否合理。

要提升數據質量,需要以問題數據爲切入點,注重問題的分析、解決、跟蹤、持續優化、知識積累,形成數據質量持續提升的閉環。

  • 首先需要梳理和分析數據質量問題,摸清數據質量的現狀。在這個過程中,需要用到數據質量評估標準和評估工具,對業務數據進行全部或抽樣掃描,找出不符合質量要求的數據,形成數據質量報告,提供給用戶參考。
  • 然後針對不同的質量問題選擇合適的解決辦法,制訂詳細的解決方案。
  • 接着是問題的認責,追蹤方案執行的效果,監督檢查,持續優化。
  • 最後形成數據質量問題解決方案的知識庫,以供後來者參考。
  • 不斷迭代上述步驟,形成數據質量管理的閉環。

6.數據安全管理

詳情見數據中臺(安全篇)

7.數據價值管理

數據價值管理是對數據內在價值的度量,可以從數據成本和數據應用價值兩方面來開展。

數據成本一般包括採集、存儲和計算的費用(人工費用、IT 設備等直接費用和間接費用等)和運維費用(業務操
作費、技術操作費等)。

數據成本管理從度量成本的維度出發,通過定義數據成本覈算指標、監控數據成本產生等步驟,確定數據成本優化方案,實現數據成本的有效控制。數據價值(收益)主要從數據資產的分類、使用頻次、使用對象、使用效果和共享流通等方面計量。

數據價值(收益)管理從度量價值的維度出發,選擇各維度下有效的衡量指標,對針對數據連接度的活性評估、數據質量價值評估、數據稀缺性和時效性評估、數據應用場景經濟性評估,並優化數據服務應用的方式,最大可能性的提高數據的應用價值。比如可以選擇數據熱度、廣度等作爲數據價值的參考指標,通過 ROI 評估,高效管控和合理應用數據資產。

數據資產價值評估方法:市場法、成本法和收益法三種,三種方法的優缺點如表所示:

進行數據價值管理的關鍵性活動包括:

  • 確定企業數據集成度水平;
  • 確定企業數據的應用場景;
  • 確定數據存儲、計算和運維的成本預算;
  • 明確數據成本和收益的具體計量指標;
  • 計算數據在不同應用場景下的成本和收益;
  • 計算企業數據資產的總體成本和收益;
  • 制定數據成本優化方案和提升數據增值方案;
  • 審覈、改進方案。

8.數據共享管理

數據共享管理主要是指開展數據共享和交換,實現數據內外部價值的一系列活動。數據共享管理包括數據內部共享(企業內部跨組織、部門的數據交換)、外部流通(企業之間的數據交換)、對外開放。

數據內部共享的關鍵步驟是打通企業內部各部門間的數據共享瓶頸,建立統一規範的數據標準與數據共享制度,數據外部流通和對外開放可以通過數據直接交易與提供數據分析信息的兩種方式實現,將數據中符合共享開放層級的信息作爲應用商品,以合規安全的形式完成共享交換或開放發佈。

數據共享管理的關鍵活動包括:

  • 定義數據資產內部共享和運營流通監控指標;
  • 設計數據資產內部共享和運營流通管理方案;
  • 制定數據資產內部共享和運營流通管理辦法和實施
    流程要求;
  • 監控數據資產內部共享和運營實施;
  • 監督落實數據內部共享與外部流通等合規性管理要求;
  • 分析內部共享與運營流通指標,評價運營效果並改進。

9.生命週期管理

數據資產管理過程中,生命週期的管理也是非常重要的部分,每一類數據都有其價值週期,要設置一個合理的數據生命週期需要考慮各方面的因素。在數據中臺的實踐過程中,首先會將數據分成兩類:不可恢復的數據與可恢復的數據。一般涉及原始數據的,都會被定義爲不可恢復數據,即清除後沒辦法找回來;而一些中間過程或者結果數據,只要原始數據在並且相關的加工邏輯在,都可以被重新加工恢復。因此在生命週期的管理策略上,也需要區別對待。

1.不可恢復數據
一般建議策略爲永久保存,在實際實施過程中可以根據企業各方面因素來綜合考慮。數據當前沒價值不代表未來沒有價值,只是當前的技術、認知和場景沒有辦法使用其中的價值。當然也需要從企業成本考慮,如果什麼數據都存,成本部分又無法承受,那反而會將數據變成一種負債,拖累企業發展。在實施過程中,可以考慮冷數據用低價存儲的方式,未來需要使用時再進行恢復,雖然可能會有一些效率上的浪費,但和實際的資金成本平衡後也是常常會選擇的方式。

2.可恢復的數據
這類數據只需要有原始數據和加工模型在,就可以通過平臺的調度策略進行恢復,因此這類數據的生命週期一般會根據實際使用情況來靈活調整。平臺側可以根據數據使用情況,推薦具體的生命週期保留時長,用戶也可以自主選擇設置,讓生命週期的設置符合實際企業需要。

生命週期管理提供生命週期的設置和自動清理功能,還提供了生命週期建議的功能,即結合數據的熱度、存儲量變化情況給用戶建議的生命週期,幫助用戶合理配置。

10.標籤管理

標籤是一類重要的數據資產。把標籤定義爲對象的一種描述方法,成爲更容易被理解、被識別的一種分類及描述的組織形式。業界常見的標籤一般分成兩類:

  • 一類是數據的分類方式,如根據數據的來源、更新頻率、歸屬部門等進行標識和分;
  • 一類是對數據的內容進行重新描述甚至是重新組織的方式,如根據行爲特點組織的還貸能力、某個屬性從業務視角的重新定義等。

標籤管理一般包含標籤體系的管理、標籤與數據映射關係、標籤的應用管理。

11.數據資產門戶

1.數據資產地圖

數據資產地圖爲用戶提供多層次、多視角的數據資產圖形化呈現形式。數據資產地圖讓用戶用最直觀的方式,掌握數據資產的概況,如數據總量、每日數據增量、數據資產質量的整體狀況、數據資產的分類情況、數據資產的分佈情況、數據資產的冷熱度排名、各個業務域及系統之間的數據流動關係等。

2.數據資產目錄

數據資產目錄通過對數據資產良好地組織,爲用戶帶來直觀的體驗,可以使用戶花較少的時間查找到自己關心的數據資產。

數據資產目錄的組織方式靈活多樣,常見的有按業務域組織、按數據來源組織、按數據類型組織。

3.數據資產檢索

數據資產檢索服務爲用戶提供了一鍵式的資產檢索服務,通過對關鍵字的匹配,數據資產門戶檢索出相關的數據資產集,用戶可以根據需要找到相關的數據資產,可以查看數據資產的名稱、創建者、業務語義、加工過程等詳情,幫助自己理解和使用數據。

參考:

基於Apache doris怎麼構建數據中臺(三)-數據資產管理
基於Apache doris怎麼構建數據中臺(五)-數據質量管理
《數據中臺:讓數據用起來》
《數據資產管理實踐白皮書4.0》

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章