大數據和小數據的治理

關於大數據與小數據的區別網上有一段文字總結的非常精彩,這裏分享給大家:

第一: 大數據重預測,小數據重決定。 大數據的分析方式是自下而上的知識發現和預測過程,通過在一堆雜亂無章的數據中找到其背後的規律,所以大數據是從不確定性中找確定性。 小數據分析通常會採用統計學方法,分析方式是自上而下。

第二: 大數據重感知,小數據重精準。 大數據可以做整體上的感知,影響的範圍更廣,比如輿情監測、流感監測、網絡營銷、智慧城市等應用。 小數據通常更關注數據的真實性和代表性,小數據更聚焦。 大數據往往包含了衆多真假難辨的數據,而小數據通常對於數據來源有嚴格的甄別,所以小數據更精準。

第三: 大數據重相關,小數據重因果。 大數據通常更注重是什麼而不糾結於爲什麼,通過相關性來給出問題的解決方案。 小數據是結果導向,更注重現象背後的內在機理,更關注於爲什麼。

第四: 大數據重羣體,小數據重個體。 大數據的應用通常更注重羣體性行爲的分析結果,比如網絡消費的大數據分析等,小數據往往更注重於個體的行爲分析結果,個性化是小數據的重要特點。

數據表示的是過去,但表達的是未來。 儘快大數據與小數據從數據處理和應用的角度有着很大的區別,但是對於大數據和小數據並不是“非黑即白”,而在我們的實際應用過程中兩者是相輔相成的。 我們應用數據不僅需要全量數據,也需要樣本數據; 不僅要了解相關性,更要明白因果關係; 不僅要預見未來,更要量化自我。 這就迫使我們從更廣泛的角度理解小數據,梳理小數據與大數據的分野,從而將相關思路投射、印證於小數據,考察其核心特點和應用特質。

四、小數據治理靠“人工”

小數據的治理十五字方針:理數據、建標準、接數據、抓運營、重實效。

理數據: 小數據治理追求的量化、精準,是以數據梳理爲切入點,摸清楚數據問題的“病因、病理”,然後“對症下藥”。理數據通常採用自上而下的方法,從數據問題結果出發,分析數據問題發生的原因。通過數據梳理和溯源、識別關鍵數據資產,釐清數據資產分佈情況、數據質量情況、數據管理情況、數據量及存量、數據使用情況等。

建標準: 標準體系的建設是需要結合實際的業務應用及管理需求, 建立各專業數據定義和使用的規範及標準,並逐步驗證標準設計的合理性和可用性。 標準體系包含三個方面:一是制定數據標準,定義數據庫表的Schema標準,數據分類、數據編碼的標準。二是制定數據管理標準,明確數據管理組織、明確數據管理權責,定義數據管理和使用流程,制定數據管理制度和考覈辦法。三是制定數據交換標準,數據採集、存儲、加工、使用的技術標準、接口標準等。

接服務: 搭建數據治理平臺,依據設計的數據標準和數據結構,結合當前應用系統的使用情況,選擇合適的應用系統,並配置相應的信息化基礎設施資源,進行數據源的接入。 依據已定義的數據標準、數據質量約束、數據接口規範執行,該過程中需要大量的人工干預以完成數據標準化、數據清洗、新舊編碼體系的映射等工作 ,形成一個標準化的數據環境。

抓運營: 在數據的產生和使用過程中,需要根據業務和管理的實際情況對數據標準、數據管理制度進行持續的迭代優化,確保數據標準化的落地,和在在長期運行過程中的數據質量,防止數據質量的劣化。 建體系容易、執行難,長期有效的堅持運營纔是數據治理成功之本。 這個過程,也是培養數據治理人才、建設數據文化的過程。一旦數據治理形成一種文化,當人人都以數據說話、以數據思考、以數據決策的時候,就標誌着數據治理的成功,也標誌着以數據爲驅動的數字化時代來臨。

重實效: 根據不斷變化的管理需求和應用需求,適時的調整現有數據管理活動以及規劃未來活動的框架,以適應不斷變化的應用需求。 數據治理不是爲治理數據而治理數據,而是爲了更好的服務於業務和管理。 數據治理要有一定的前瞻性,既要滿足當前企業的業務和管理需求,也應滿足企業未來的發展需求。

對於小數據治理本質上是對利益相關者的溝通和協調,用於確保管理和保護重要的關鍵數據。它涉及到個人,方法和創新的簡化協調,其順序使其能夠實現企業的數據價值。 可見,小數據的治理更多的是人的因素,所以我們說: 小數據治理靠“人工”。

五、大數據治理靠“智能”

大數據治理的六字方針: 採、存、管、看、找、用。

採。 很多數據價值的發現是來自對多源、異構數據的關聯和對關聯在一起的數據分析。將多個不同的數據集融合在一起,可以使數據更豐富,使大數據分析、預測更準確。然而,由於缺乏統一的數據標準設計,多源數據抽取和融合面臨的困難是巨大的,人工智能技術的應用就顯得十分重要。在數據實體識別方面,利用自然語言處理和數據提取技術,從非結構化的文本中識別實體和實體之間的關聯關係。例如:基於正則表達式的數據提取,將預先定義的正則表達式與文本匹配,把符合正則的數據定位出來。基於機器學習模型進行文本識別,預先將一部分文本進行實體標註,產生一系列分詞,然後利用這個模型對其他文檔進行實體命名識別和標註。 在這個過程中指代消解是自然語言處理中和實體識別關聯的一個重要問題 ,比如:某醫生,除了其姓名、職務、專業外,在文本中可能還會使用某醫生、某大夫、某專家等代稱,如果文本中還涉及其他人物,也用了相關的代稱,那麼把這些代稱應用到正確的命名實體上就是指代消除。

存。 與傳統的小數據治理不同,大數據環境下數據發展呈多樣化,傳統數據治理強調的建目標、建體系,似乎很難適應大數據的多變。 前文我們說過大數據的數據庫模式是讀時模式(Schema on Read),在數據採集、存儲過程中並不關注數據的Schema (即數據結構),而是在數據分析的時候再爲數據設置Schema,這就導致爲大數據建立統一的Schema標準是行不通的。 在大數據治理過程中,強調的是數據的關聯性,數據標準是被弱化的。

管。 這部分筆者認爲與傳統的小數據治理沒有太大差別,核心是建立數據治理體系和長效運行機制。

看。 傳統數據治理從理數據、建標準到接數據、抓運營的整個過程中,都是技術+管理共同推進的。 也有人說,數據治理太過技術化,做完以後領導看不到效果。 大數據治理是不僅讓大數據能被管起來,還能被看到。 在大數據治理項目建設過程中,利用數據可視化技術,將底層的數據以可視化的方式展示出來,讓用戶能夠看到,在一定程度上也標誌着項目的成功。 大數據治理中可視化應用包括: 數據資產地圖、數據熱度分析、數據血緣分析、數據質量問題分析等 。

找。 在業務場景或業務環節中如果能夠準確、高效的找到想要的數據?是大數據治理需要研究的一個課題。一般來說通過技術元數據查找相應的數據是比較容易實現的,但是數據治理目標是爲業務服務的,業務人員對技術元數據並不清楚、也不熟悉,如何讓業務人員像用搜索引擎一樣能夠找到自己想要的數據,這就需要建立業務元數據和技術元數據的匹配。而在大數據環境下,業務元數據和技術元數據的匹配關係顯然不是通過“人工”的方式可以完成的,這就需要藉助人工智能技術。 在“找”數據的應用中,知識圖譜的應用無疑是一種最佳解決方案。 知識圖譜通過從各種結構化數據、半結構化數據(形如HTML表格、文本文檔中)抽取相關實體的屬性-值對來豐富實體的描述,形成實體-屬性-值,和實體-關係-實體的圖譜描述,從而實現數據的快速定位和精準查詢。

用。 大數據治理對大數據採、存、管、用的規範化管理,是 要讓數據不僅能夠“管得住”、“找得到”,還要讓數據能夠“用得好”。 事實上,大數據的治理從來與大數據的應用相伴相生的,離開應用搞大數據治理是行不通。 智能數據服務就是一個集治理與應用爲一體的數據服務形式,通過數據服務的形式對外提供數據。 也就是說,通過數據接口你就能夠找到想要的數據,將數據接口嵌入到各個想要的業務系統中,遇到數據質量問題的時候也能直接定位到問題所在,而不再是等進入到數據治理系統裏才能判定出血緣關係。

六、總結

在不久的將來,大數據、小數據的界限或將被消除,取而代之的是“全域數據”。 大數據、小數據都是從技術層面對數據的描述或表達,而全域數據是從業務角度進行定義和描述。對於每個企業的全域數據覆蓋範圍是不一樣的,全域數據涵蓋了企業相關的內外部數據,與企業的業務和商業性質息息相關。2019年“數據中臺”的概念在全國範圍內被推上了一個高潮,也有人將2019年稱之爲數據中臺的元年。所以, 未來的數據治理會形成基於小數據治理體系和大數據治理技術,在數據中臺落地的數據治理新模式 。比如,未來智能交通領域,將有可能用全量實時的數據,來感知城市每輛車所在的具體位置、每個紅綠燈路口的車輛信息,並對這些情況進行全局調控,從而大幅提升城市交通運營效率。而實現這一目的,離不開對數據的挖掘和分析,以及人工智能的深度學習。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章