工業數據治理和數據資源化思考與實踐zz

導讀:近年來,數據治理和數據資產化成爲了工業數字化進程中的重點,得到了越來越多企業的重視。如果您是企業數據技術團隊負責人,負責數據治理或者數據管理相關工作,董事長或總經理需要圍繞企業未來產業發展,要求你把數據治理工作落實、落地,做大、做強,應該如何怎麼去開展工作呢?本次分享關注的就是工業產業怎樣和數據技術去結合,怎麼讓數據價值去落地變現。工業大數據創新中心更多專注於工業領域,我們將嘗試從上述角度出發,分享一些我們在數據治理最後一公里實踐過程中面臨的挑戰、獲得的經驗和和進行的思考。

本次分享主要分下面 4 個部分:

  • 背景
  • 實踐
  • 思考
  • 總結

分享嘉賓|鍾虓 北京工業大數據創新中心 業務總經理

編輯整理|monk 國家管網

出品社區|DataFun


01/背景

 

工業數字化這個領域工業大數據創新中心已經做了差不多有十年了。十年前,當我們去跟工業企業的領導談數據、談數據價值的時候,還要從最基礎的概念,比如什麼是大數據技術開始講,但這幾年基本上都不用談這些了,幾乎所有工業企業都已經把數據技術、價值和自己企業的產業發展和未來業務發展緊密結合起來了。產生這些變化的原因不僅僅是國家在大力推動,也包括了企業自身行業發展,企業數字化轉型發展的需求。

 

 

從另外一個角度,上述變化其實也反映了企業不僅認知到數據的價值,而且更進一步,尤其是“十四五”數據經濟提上日程之後,大家對數據技術和產業結合,產業價值落地的進程實施也越來越快。在企業內部和“提質增效、節能降耗”、“高質量發展”、“雙碳目標”、“產業數字化轉型”結合,甚至有很多企業已經開始對外把數據資源服務作爲開源增收、業務創新、多元化發展的一大利器。

 

 

這樣的現象,不僅針對各個行業的單點企業,現在已經在整個行業、產業鏈去延展。比如新能源、工程機械、電子製造等一些行業,不僅僅停留或滿足於賣設備,而是在此基礎之上去附加數據增值服務。幾大發電集團在進行電站規劃建設實施、招投標時,都會把數字化能力作爲對上游企業的一個考察能力項。產業鏈形成更高效的協同,需要提升整個產業鏈的數字化水平,而不僅僅是一家企業的提升。

在當前的大背景下,數據在中間發揮作用就越來越越多。數據已經真正成爲企業的重要資產,是生產經營的核心要素,是企業從過去自動化、信息化向未來數字化、智能化轉型升級的關鍵要素。這點基本上已經成爲行業公認的共識。

 

 

但在落地過程當中,大家會面臨很多的問題。如果真正從數據價值落地的環節,以終爲始倒推來看,最困難、最具挑戰的環節實際在於數據。比如數據怎麼獲取?獲取之後如何進行治理?如何讓數據達到業務落地的質量要求?怎麼加快數據效率?等問題。我們訪談了很多的工業企業,也瞭解過他們在數字化轉型過程中的實踐努力,基本上所有企業都會認可整個過程中 80% 左右的精力和時間是花在數據環節的。下圖是我們梳理的數據治理流程。

 

 

一個好的數據基礎爲後面數據價值的挖掘,數據創新,迭代效率提升非常有幫助。進一步,企業要想進行內部跨部門協作,甚至企業間的高效協同,建立高質量的、易於理解的,可溝通的,普適認知的數據標準又是整個過程的基礎。再進一步,圍繞數據價值鏈,各協作方去打破邊界,產生知識和數據的交流,去減少衝突,然後達到全局最優,數據治理是這件事情的基礎。再往前,企業生產過程中,特別是當環境有很多動態性、變化性需求,生產製造企業如何從上游設計一直到後面整個交付過程中,更快的,更動態的去匹配上述市場的變化?數據在整個過程中如何爲收益增加產生更大作用?

數據治理是數據價值能夠得到持續釋放的重要因素。數據治理工作是一件需要長期持續的事情。大家都知道“故事好講”,就是數字化的場景這個故事是很容易講,但長期持續去釋放價值則是很具有挑戰性的。

如何利用數據治理的能力去提升數據價值,釋放這樣持續可靠性和質量,是我們在工業領域進行數據治理的一個目標。數據最終還是爲業務去服務的,提供更高效的數據資源和數據相關工具,讓數據的挖掘、業務結合變得更容易。讓更多的人,更多的團隊,更多業務流程參與進來,賦能工業用戶,是我們數據治理的核心的價值。下圖是我們總結的工業數據治理價值的一些體現。

 

 

下面從另外一個角度,描述一下工業數據治理的挑戰。工業數據從技術角度從下往上看,本身的“接存管用”具有多種特徵,比如工業數據本來就是多元異構的海量數據,具體來講有以下特徵:

  • 數據是分散的。來源很廣,包括信息化的系統,也包括生產系統,傳感器監測系統採集的數據。
  • 數據是多維的。數據類型上工業實際數據也包括結構化的設備臺賬數據,非結構化的工業視頻,業務上覆蓋了“人機料法環測”多個維度。
  • 數據量巨大。生產過程的核心要素數據量是非常大的,比如我們採集的風力發電機組、大型風機、半導體產線,它的數據量非常大。數據採集頻率也很高,比如高頻振動數據。此外,設備上相應的數據採集點也越來越多,海量多源異構的數據都需要去治理。

 

 

不僅僅數據接入和使用的問題,數據治理繞不開的一個問題是怎麼和業務去結合。工業生產過程中,生產複雜度高,可能有上百工序,上千臺的機臺,有些複雜的生產工序可能長達幾個月,如何把這些數據有機的組織起來,進行資源化,甚至未來資產化,爲上層業務服務。在這個過程當中有很多技術問題需要去處理。整個過程數據是動態變化的,從定義到精度都不是一成不變的。工業生產過程中數據都是動態化的,工藝的提升、主控程序升級、傳感器升級換代等都會帶來整個過程動態化,這是工業領域數據資產化我們面臨實際困難和挑戰。

--

02/實踐

 

實踐方面,這裏分兩大類和大家進行簡單分享:

一類是針對高端複雜裝備,即高技術裝備的數據治理,比如風力發電機組、汽輪機、煤礦機械、大型鼓風機、空壓機等,都是工業生產當中的核心裝備。圍繞着核心設備生產過程、運行環境、運行過程、後續優化運維開展大量的工作。

 

 

這張圖是風力發電過程當中產生的數據。會發現周圍林林總總各種 Scada 數據、測風數據、環境數據、故障信息都會匯聚起來,數據量非常驚人。

 

 

我們一個項目中每天光運行數據可能就有 2 億多條,而且僅僅是結構化數據,還沒有算非結構化數據的數據量。我們面臨的生產環境過程數據治理是一個無邊界的情況,有源源不斷的數據進來,要求我們能夠實時對這些多種多樣數據去進行處理,而且數據類型、頻次、價值密度都不一樣,都爲後續的數據治理、價值挖掘帶來了挑戰。之前我們也是花了大量的時間跟工業用戶一起梳理他們的數據資產,才構建了能夠與業務去結合的數據治理框架制度。

除了風電之外還有煤礦、機械等行業,不只是關注單臺設備的數據治理,還需要關注設備間的聯動,要形成協同,形成配合。數據頻率不夠高一些故障沒法做到及時診斷和預警。

 

 

還有很多動設備,比如說新能源車輛,工程機械像挖機、裝載機等,全國到處跑,數據一方面是分佈動態,數據是從全國各個地方收集回來的,對數據治理的實效性、數據質量評估、數據價值挖掘帶來了非常大一些挑戰。

 

 

另外一塊是產線相關,就是高端複雜的一些長流程生產線。特別明顯是在半導體生產過程中 ,一頭是原材料,另一頭是產品,在一批批的相應制造過程中會面臨大量的工序環節,有大量不同類型機臺數據,然後整個生產過程很長,有幾個月。

 

 

在生產製造過程中,生產效率、自動化程度主要圍繞設備工藝、質量、環境的數據信息。如何進行有機的組織,形成比較好的數據關聯和治理,爲後續像波動性分析、根因分析、效率分析、優化分析去提供基礎。比如說大家可以想象,高鐵能那麼平穩地運行也是因爲它最後出來的鋼軌設計精度非常高,我們要做的數據質量或者數據分析其實不僅僅是看它的某一個生產環節,某一個工藝段,而是需要把整個工藝段數據去進行相應分析、關聯,然後就進行有機組織後爲後面的分析去服務。

 

--

03/思考

 

下面談我們在數據治理方面的一些思考。

首先,談數據治理的時候我們的觀點是什麼呢?雖然我們往往最後是從數據平臺上來看到數據的,但整個數據治理是一個端到端的過程。等我們看到數據,發現數據的時候,其實基本上都已經到了最後一個環節。一些基礎的,很核心的根因性的問題修復是做不了的。所以數據治理我們第一個觀點就是數據治理需要放大到整個鏈路來看。比如以新能源爲例,從現場 PCL、新能源的中控,到監控軟件,到區域公司,到集團公司,從數據的業務出發,數據的質量要求是不一樣的,所以需要順着鏈路進行整個的治理規劃。但未來我們想象也不僅僅是企業內部的事情,還會涉及企業的內外協同。比如說運營企業,上游有裝備製造企業,裝備製造企業上面還有它的零部件,往下游走背後的像金融公司等一大堆產業鏈面上的公司。這個過程中我們需要放大到整個產業鏈的角度來進行數據治理。

 

 

另外一個也是做了很多工作之後,比較觸發我的一個思考圖。

 

 

這個圖是我們一個工業企業的合作伙伴的團隊負責人跟領導彙報時用的一張圖。我們跟他們一起做了很長時間,爲數據治理投入了非常多的人力和精力,也做了很多方式的工作在上面,所以具有同樣的感觸。但從企業發展角度,很多領導關注的還是能夠呈現出可感知的,可量化的業務價值。這也是我們共同的希望。面對這樣的問題,我們怎麼樣去平衡好數據治理的投入和產出?或者怎麼衡量成熟度?怎麼樣讓業務價值能夠感覺更多?倒過來看看,圍繞着數據業務的價值,在數據治理上面怎麼去做,怎麼去投入?

 

 

這個是我們簡化後的一個簡單數據治理概念模型,從生產系統到後面平臺到上面價值應用。當然實際工業生產過程的數據鏈路和數據價值鏈路肯定比這個複雜的多。

套用一下電網分區,從一區拿到數據,彙總到在三區的平臺上面,再去構建應用來爲產業服務,基本上是這樣的概念模型。

 

 

那實際數據治理通常應該在哪個環節發生?是進平臺的時候入手去治理,還是把它轉換成數據服務的時候去做數據治理,還是在用數據的時候再根據業務場景需要去做數據治理?可能名稱叫法會存在差異,也可以叫做數據預處理,或者數據的資源化服務,這些不重要,只是講這樣的一個概念。這是我們經常見到的數據的治理點。

從最開始接觸到工業時,我們當時就一個理念。就特別希望的把事情就做到前面。然後我們必須一次性,全量、實時的去完成數據質量,或者數據資源化的工作。我們做了很多的嘗試,數量不管多少都接進來,然後用了很多技術,去做了大量的實時數據治理,然後轉換成相應的標準化數據服務,高質量的數據服務爲後面的應用去服務,希望是一次治理出收益。其實從現在來看,這樣的理念也仍然是我們一直在追求的目標。但從實際的角度來講,過程當中會面臨非常多的挑戰。

 

 

下面從當時我們做過的一些案例簡單給大家看看。

我們出發點是希望從源頭就避免數據垃圾進垃圾出,希望進來就清洗好,後面大家就能搞質量,去發現問題。所以我們有很多基礎工作要做,數據質量覈查、監控告警、異常數據處理修復等工作多了很多。

 

 

但實際問題是,工業企業實際生產過程當中,它的標準和現場的生產運行中間還是有一些不匹配的地方。然後對於數據質量的要求,不同的口徑,不同部門提的要求也是不一樣的。特別是我們去做數據修復的過程當中,要求就更是千奇百怪了。比如很簡單一個補數,數據缺失了要補數,有些按照平均數據補,有些要求固定值,有些按中位數、做插值去補,還有很多跟行業相關的,比如風力發電,我們碰到過中間有一臺風機的數據缺失了一段,然後讓你用周圍的,跟他距離相近,空間相近的一些機組數據去補。數據治理手段和方式其實從我們角度看,很難一開始就形成一個統一的、一致的、而且未來很長段時間不會變的標準。

 

 

第二點,就是我們治理過程中,其實也會屏蔽一些後續的有用信息。比如說有些數據是零,可能意味着,比如對環保,他可能就意味要麼是傳感器壞掉了,還有也可能是瞞報、漏報的一些問題。它也有它的含義和業務價值。所以治理到什麼程度,怎麼和業務去結合其實也是一個蠻大的挑戰。

 

 

還有一個問題,數據治理,特別是去做全量實時的數據治理的時候,數據每天都在進,會佔用大量的計算資源。但從數據價值的利用的率來看,不是所有的工業數據都會被後面反覆的大量、高質量的去使用。這就會造成大量數據計算資源的浪費。

 

 

還有些很實際的問題,比如說數據治理規則會變,肯定要允許規則改變。但一旦規則變了之後 ,過去的歷史數據怎麼處理?要不要重新算?重新算會重新佔用資源,如果不算版本之間怎麼去達成一致,達成協同?如果出現跨年度比如十年的一個報表,標準不一樣結果肯定會出現偏差。這些都是我們在現實當中碰到的一些實際的問題。大家可以想象,如果今天你在這個位置上,或者類似的工作安排上,你都會去想這些事情。這不是個別現象,我們很多投入和成效不成正比。

還有種做法,我們也實踐過,就是接入數據的時候就治理一批,然後說治理了。同時把原始數據也存了。然後會發現說其實他對資源的佔用還是一樣。而且比起原來這種做法,存了兩份、更多份的數據,導致的開銷更大。

所以我們現在在提的一個概念(僅代表我們個人的觀點),我們把它叫做分階段按區數據治理。什麼叫分階段,其實我們認爲,在不同的點,不同的環節去做數據治理。在每個階段去做好每個階段應該做的事就行了。

 

 

第一個階段,我們更多的是去做數據質量評估和識別,包括完整性評估、重複性、實效性、正確性的評估,而儘量不去改這個數據。在這個過程當中需要有技術架構去做這件事。怎麼去做這件事情,怎麼把數據標準轉換成企業的落地數據治理系統,或者數據管理系統的一部分。

 

 

比如要解決工業領域的數據重複性問題。看起來發現數據重複是很簡單的事,但想象一下,面對的工業數據是源源不斷的接入情況下,數據重複性問題不是一天暴露的,經常發生歷史數據重新發送的情況。

 

 

除了重複性還有數據完整性的問題,從設備、機臺、工藝對象進行完整性分析,從時間維度、批次維度等進行數據可視化呈現,後續相關分析時對數據質量、完整性進行相對直觀的瞭解。

 

 

數據存在缺失時需要補數,需要按設備正確的去分析然後依據人工規則、行業專家經驗、機器學習來形成智能、自動化的分析手段,節省治理環節的人力和精力付出。工業領域的數據還需要正確性分析、實效性分析。

 

 

工業數據是很長的一個鏈路,數字化車間基本不會圍繞着一個個單臺設備去做,如果放大到大的生產系統、企業集團內部,數據的傳輸實效性是非常嚴重的一個問題。按天爲顆粒度會產生滯後性,當應用出現問題後,怎麼及時的鎖定、發現問題,時效性不太容易暴露,但也是實際工業領域數據治理過程中需要去考慮的事情。

以上是第一步,也就是數據治理接入的環節。在這個環節需要更多的去發現問題,及時做出數據補錄等異常數據處理。第二個環節是數據存下來了之後,當要到用的時候,我們提了一個概念叫“按需數據資源化”,也就數據需要依照業務場景和價值出發,在統一規劃和架構的支撐下,按需的來做數據資源化工作,從而實現數據的一致性。

 

 

這裏的一致性我們把它放大了,不僅僅指的數據的名稱的一致,也包括理解上的一致性。比如在不同環節、部門、公司去用數據時,大家對名稱、含義、精度等各方面的理解是一致的。

這個過程當中有很多工作做。爲什麼傳統工業企業去做數據分析、使用時,經常會做成豎井式的建設?從業務出發很容易幹成豎井式的,各自封閉,生產監測系統、監控系統建了十幾套,彼此不相通,結果沒法做聯合解讀。

 

 

另外一種常見做法是底下建個大平臺把數據收了,但是數據價值無法去體現,數據價值釋放緩慢或困難。所以我們的想法是中間缺了一層,業務和數據之間還需要加入一層領域模型層。領域模型層就是要把IT角度管理的數據,比如不同數據庫、數據引擎、數據模型,能夠和特定行業、生產、設備去關聯,結合,將數據面向領域進行資源化,這個環節主要就是做面向業務領域的映射。

 

 

然後上面的數字化應用,不管是良率分析,還是運行故障分析、能耗分析,都是圍繞一個統一的數據資源層或者數據模型層來進行分析。這樣做的目的是希望應用能夠有效、可靠、敏捷的使用數據,或者換個角度說,能夠讓數據能夠有效、可靠、敏捷的被加工,去釋放價值。

 

 

所以這個過程當中我們要引入一些面向產業、行業、設備的數據資產模型。讓數據掛在生產系統的設備、資產數據數上,業務應用部分數據探索價值、挖掘、訪問都不是直接去訪問底層數據庫的接口,而是從業務領域,用業務語言去訪問數據進行分析。

 

 

因爲這個分析過程中我們對底層的數據、數據存儲方式並不感興趣,感興趣的是發生故障後,要研究故障過去發生的時候運行數據怎麼樣的,振動數據是什麼樣子的,類似的故障以前有沒有發生過,當時發生了誰來修的,更換的什麼件,同樣的故障在其他的類型的設備身上有沒有發生過,又是怎麼修的,用到哪家的件,被更換的用一批次的件都運行在哪?這些是我們在做相關分析時腦海當中構建的業務數據藍圖。我們要和底層的數據結合起來,將相關資產模型,映射到我們的平臺上面去做數據資產模型的管理,然後把設備生產相關的數據組織起來。

 

 

後面第三步是做了映射,但其實我們還是沒法解決所有的問題。就是真正做場景分析時,我們對數據的質量要求,結合業務目標,包括數據分析結果的精度、誤報率、漏報率的要求都不一樣,對數據處理的手段和方式也不一樣,所以我們還需要去考慮在分析環節去提供一套靈活的,可組裝的,按需構建的數據治理或者數據預處理機制,來滿足業務使用數據最後一公里的需要。

 

 

我們也不是把它限制死,還是可以進一步結合業務場景去加工。通過可視化組裝式數據處理這種方式,能夠把數據處理、特徵提取、數據治理相關能力,結合數據標準固化成一個個的算子。

 

 

算子大家可以簡單理解是一段數據處理邏輯。然後未來大家去做數據分析時只需要進行算子組合就可以完成相應數據處理,而且在這個過程當中我們還提供一定的開放性和靈活性。數據治理不是一蹴而就的,開放性支持大家去增加新算子,去擴展新的數據治理能力,並去把它固化、沉澱下來,變成未來系統可構建的一部分。

 

 

經過調試等核心功能的處理完善,最後把數據變成按需治理後的數據資源。當然這樣的迭代過程可以是反覆被加工的,或者說能夠一層層的去加工。比如原始數據第一次加工算出了設備的故障預警信息,然後基於預警信息就可以去做後面的備件預測,去做後面的運維排程,就進行第二次加工,根據備件預測可以去做財務預算、計劃,就算第三次加工。

 

 

我們在平臺上從數據治理角度還有個理念,就是數據治理的過程也是一個階段一個階段不斷迭代的,至於幾個階段可能需要結合不同行業進行探索。我們覺得分階段有必要,但分幾次階段、幾次資源化還是需要結合行業實際做好。當前我們認知是四次資源化來實現業務產品的支撐。當然後面我們也歡迎其他的行業大家一起來交流,共同來探討。

 

 

技術手段之外,還有一個話題就是體系的建設。體系的建設不僅僅是技術工作、技術選型、技術架構,也不僅僅是數據標準、相關規範的建設,還包含了跟大家的日常更結合的更緊密一些。組織能力建設、制度建設,特別是數據使用識別過程當中可能需要懂數據技術,懂計算機技術,瞭解業務領域這樣一個“三T融合”的團隊建設。團隊需要各個小組緊密配合,然後結合業務發展、實時動態記錄去進行數據價值落地支撐。我們把它叫“數字化辦公室”。

 

 

除此之外,當然還會有相應工作流程和方法。從場景驅動的方式,從數據的層層加工、分階段加工的流程,去支撐整個事情去落地。背後當然也還有相應的數據底座、數據架構、加工工具之類的支撐。組織、工作方法流程、工具支撐這三大要素構建了我們認爲工業領域數據 資源化資產化的核心要素。

--

04/總結

 

投身數據治理的團隊都繞不開回答的開頭的那個問題,就是怎麼去衡量投入產出?怎麼讓從內部領導、相關業務部門,到外部的業務合作伙伴和團隊能夠感受到我們的工作的可感知的、可量化的業務價值?

 

 

首先從業務角度去審視我們做的所有的工作,這是我覺得非常重要的一件事情。以終爲始的去看,以業務價值去看,看看這件事情在我們前期投入是否合理,因爲不是所有需求都是要投入進去的。

第二個是分階段地去做數據治理。把過去曾經嘗試過的“畢其功於一役”的事情分階段的去做。特別現在大家談的數據湖數據倉“湖倉一體”也部分的有點這種感覺。

第三個是按需去做數據治理、數據資源化和資產化。結合業務的需要。在統一框架和統一支撐下,業務需要一批我先治理一批,慢慢豐富、完善、迭代。治理一批、產生一批價值,成熟一批。

最後一點是體系化的建設。工業數字化很多工作,不管是數據治理還是數據價值挖掘,或者是數據業務落地,都不僅僅是技術問題,在整個過程當中組織架構體系如何去建設也是一個重點需要去同步去考慮的事情。

崑崙數據/工業大數據創新中心介紹

 

--

05/Q&A環節

 

Q:能給我們一個實際的怎麼更好的通過數據治理體現價值的案例麼?

A:簡單講一個國網我們原來做過一個新能源大數據創新平臺的例子。風電有一個很重要的工作是做功率預測,因爲風電本身是不穩定的,屬於動態能源,有它的週期性和它的不穩定性。所以對電網而言,希望能對它的行爲進行預測,比如發多少電?以保障電網可靠的運行。過去大家都各家自己做,水平也參差不齊,沒有形成一個比較好的效果。後來我們在中心側嘗試把風電、光伏電站的各個數據彙集起來,然後開放出來在這個平臺上統一的去提供基於數值的功率預測,達到較好的水平,爲整個區域的新能源去服務。背後一個很重要的工作就是不同的廠商、 不同風場,不同機型的數據是不一樣的,數據含義、數據名稱、精度都是不一樣的,每天都要實時算的,而且不太可能是定好了就不變了,時常動態的改變。因爲不斷的有新風場、新機型、新傳感器加入,所以我們也是做了很多工作,把各個風電廠不同企業 不同設備類型的數據經過統一的彙總、標準化處理之後,能夠提供全平臺的統一的功率預測。

今天的分享就到這裏,謝謝大家。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章