萬億級數據，如何高效進行數據治理

個推資深數據分析師遠見

在數據智能時代，對企業而言，“數據驅動業務”或者“數據即是業務”的理念逐漸成爲業界的一種共識。然而，數據孤島、數據標準不統一等問題在一定程度上阻礙了數據資產價值的最大化體現。個推作爲專業的數據智能服務商，在數據治理方面有着豐富的實踐，旨在幫助提升效率、節省成本、獲取數據資產價值。

本文將從三部分講述個推數據治理：數據治理概念解析、數據實踐、常見問題分析。

什麼是數據治理

講具體概念前，我們先看一個生活中的例子。大家去超市買菜或買水果時，通過分區指引很快就會找到對應的蔬菜區和水果區。蔬果有打包好的、散稱的，方便大家自助購買。而老的菜市場模式，菜品有些在臺面上，有些還在袋子裏，我們需要問老闆有茄子沒？有西紅柿沒？多少錢1斤等等。或者更原始的自家種菜模式，需要時臨時去採摘。通過上述模式對比，如果我們是數據使用者，我們期望通過什麼樣的方式使用數據呢？數據治理的一個工作就是讓數據從混亂無序到規整統一的過程，讓數據使用更便捷。

圖片來源自攝圖網

數據治理目標

企業數據治理的目標主要是爲了企業能夠快速發展和效益的最大化，比如提升效率（數據開發效率或者使用效率）、節省成本、業務創新增收、風險控制等。企業通過治理運營可以及時發現並規避一些經營風險問題，有效確保數據使用的合理性與合規性。

數據治理規範

根據ISO定義，數據治理 (Data Governance, DG) 就是以服務組織戰略目標爲基本原則，通過組織成員的協同努力、流程制度的制定以及數據資產的梳理、採集清洗、結構化存儲、可視化管理和多維度分析，實現數據資產價值獲取、業務模式創新和經營風險控制的過程。治理工作旨在讓數據使用更便捷，價值更易被挖掘。

上圖是我們國家標準化管理委員會於18年6月發佈，19年初正式實施的《數據治理規範》。由圖可知，數據治理一共分爲四大模塊：頂層設計、數據治理環境、數據治理域、數據治理過程。其中，頂層設計是數據治理工作的基礎。數據治理工作會涉及到多部門、多團隊、多工種，需要根據組織當前的業務和數據現狀，設定實體或虛擬組織機構，確保治理工作朝着組織戰略目標前進。

目前，個推也設立了各專業的委員會和執行組織，負責把控數據工作的目標和方向、指導數據工作的開展落地等。

數據治理環境是數據治理得以成功實施的保障條件。開展數據治理之前我們需要理清領導層、管理層、業務層、執行層等等利益相關方的需求，同時識別出項目支持力量和阻力。值得注意的是，數據治理工作是個長期的過程。有關準備工作和支持力量不容忽視，因爲兩者直接決定了後續工作的推進是否順利。

架構中部的數據治理域主要負責治理工作相關的制度規範、流程的制定和落地。數據治理域由數據管理體系與數據價值體系兩部分構成。前者主要包括數據質量、數據安全相關的標準制度，後者主要指的是數據共享、數據服務和數據使用分析體系相關的制度。

數據治理工作需要長期持續投入，所以在具體執行過程中，我們就需要考慮用正循環的閉環方式去開展。治理過程主要包括確定數據治理目標、制定數據治理計劃、執行業務梳理、設計數據架構、採集清洗數據、存儲核心數據、實施元數據管理和數據血緣追蹤，並定期檢查治理結果與治理目標的匹配程度。

數據治理實踐

治理工作的主要流程可以概括爲“理—採—存—管—用”。“理”指的是理組織、理業務、理數據；“採”指的是讓這些數據能方便地流入到中心集羣中；“管”是治理的核心，指的是管元數據、管質量等等。“用”這個環節，常規方式一般是通過API予以提供。基於此流程，個推構建了自己的數據治理平臺。

本文主要從系統建設層面論述數據治理的具體實踐過程，系統外的工作將不再贅述。

數據集成

系統工作首先需要進行數據集成，該環節也是數據彙集和後續開展治理的前提。目前個推的數據集成模塊以標準化接入爲主，通過Flume採集數據到Kafka集羣，再由Camus進行消費然後落地到HDFS。相較於之前需要多團隊協作才能完成的數據接入工作，現在數據分析人員僅通過個推數據集成模塊即可完成相應的工作。此外，爲了解決數據的異地互備問題，個推還研發了數據拉取、同步功能。核心的底盤數據會通過該功能，同步到多IDC機房和集羣，這樣一旦某一機房發生故障，業務還可以在其他集羣進行正常運轉。

安全管理

爲保證數據使用的安全性以及授權工作的高效化，個推構建了用戶維度的角色體系和數據維度的安全策略體系。管理員根據用戶所需的權限，即可進行合理化的授權。

1）用戶角色

用戶角色的本質在於用戶分組。我們將用戶分成不同組，並賦予每個組的用戶不同的權限等級。權限等級可根據人員的入職時間和崗位要求等予以設定，也可根據線上線下任務情況以及業務場景予以設定。

2）數據安全和策略

數據安全策略支持表、字段、行三種策略。表策略解決DB裏相關的表是否可被使用的問題；字段策略解決表中字段是否可見及脫敏問題。個推通過去多重、去標識化的手段進行脫敏處理，有效解決了訪問控制問題。

數據治理各階段常見問題分析

數據查找階段-表維度

在數據查找環節，我們會對用戶設置歸屬組或者對數據進行打標。用戶可以瞭解其所在組權限內的所有數據。這些數據基於訪問熱度，從高頻到低頻進行排序。根據28原則，20%的高頻數據能滿足80%工作需求。新員工就可以用最快的時間快速熟悉相關業務數據，數據源涵蓋了Hive、HBase、MYSQL等介質。

表格上方設置了搜索框，支持表、路徑、標籤等維度的查詢。如果發現所需數據後，我們可以進行收藏。在後續進行數據變更時，該治理平臺可以及時通知使用方和收藏方；該平臺也可以在新增數據資產時，根據用戶使用數據的特點，進行新資產的推薦，從而提升數據使用效率，實現數據價值的最大化。

數據查找階段-字典維度

除了表維度的查找方式，我們也提供了字典維度的查詢。比如上圖的地區字段，涉及到了40張表。我們只需要一鍵點擊，這些表格就會自動按照熱度進行排序。

數據學習階段

數據的基本信息模塊不僅包含字段說明、簡要、生產程序、負責人、大小、標籤、權限等信息，還提供對數據各字段的基本描述統計信息和樣例展示。如果不滿足於平臺上已有的信息，我們可以通過該數據的基本信息模塊找到數據生產負責人，進行進一步溝通、學習。

數據開發落地階段

在數據開發和分析環節，個推數據治理平臺支持查看數據大小、分區和文件數等信息。處理小量數據時，我們可以採用count(distinct *)方法，操作方便。但當處理百G或T級別數據量時，該方法就不奏效了。我們需要用group by 後再做count。

參照百度百科、維基百科等知識衆包平臺的理念，數據治理平臺還提供了數據的實現邏輯、適用範圍、更新歷史和最佳實踐板塊。開發者在使用數據過程中就可以把數據的適用範圍和最佳實踐等信息更新到平臺上。

數據鏈路的複雜性以及數據使用場景的多樣性，會對測試和上線工作帶來一定的挑戰。爲此，我們需要構建一個數據血緣模塊，理清數據和服務的上下游。在此基礎上，平臺還提供了數據近期使用的頻次信息，便於我們進行數據上下線的通知，也爲後續數據生命週期的科學管理提供決策依據。

本文主要介紹了個推數據治理實踐工作。作爲擁有海量數據沉澱的數據智能公司，個推也將不斷打磨自身技術，持續創新數據治理模式，與開發者一同分享數據治理實踐的前沿理念與方法。

完整版分享材料獲取

關注【個推技術學院】微信公衆號

（微信號：getuitech）

回覆關鍵詞“數據智能”

即可領取數據治理實踐完整版分享材料！

此外，通過視頻鏈接還可觀看本文配套解析：

http://live.vhall.com/221291802

萬億級數據，如何高效進行數據治理

《日本蠟燭圖》讀書筆記 & 技術分析回測

一分鐘部署 Llama3 中文大模型，沒別的，就是快

Python多線程編程深度探索：從入門到實戰

《期貨-市場技術分析》讀書筆記

mongodb處理json數據很好

頂級 Javaer 都在用的 20 個類庫，真香！

[轉帖]cpupower

google瀏覽器插件開發

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

ffmpeg 百度雲盤

測試通知錯發到線上了怎麼辦？看這裏!

基於APNS的語音播報實踐

如何使用Greenplum提升PB級數據處理能力

萬億級數據，如何高效進行數據治理

個推圖可視化應用實踐

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結