關於袋鼠雲數據中臺專欄V2.0
數據中臺如何定義?企業數據化與數據中臺的關係是什麼?數據中臺如何支撐企業戰略轉型?袋鼠雲近兩年來,先後爲國內數十家大型龍頭企業提供數據中臺諮詢與實施落地服務,積累了大量的實戰經驗,同時也在爲客戶服務的過程中,不斷完善和昇華自身的數據中臺理論體系和實踐方法論。希望通過後續文章的分享,與諸位讀者交流,共同加快企業全面數據化進程。本專欄每週更新1-2篇,敬請期待~
數據中臺之數據集成
1
在現代企業中,由於使用場景、業務形態、技術選型、開發架構的差異,往往有多個異構的、基於不同的軟硬件平臺上的信息系統同時運行,這些系統的數據源彼此獨立、相互封閉,使得數據難以在系統之間交流、共享和融合,從而形成了「信息孤島」。隨着信息化應用的不斷深入,企業內部、企業與外部信息交互的需求日益強烈,急切需要對已有的信息進行整合,聯通“信息孤島”,共享信息。
在企業構建數據數據中臺來解決數據互通和共享的要求下,「數據集成」是打通信息系統和數據中臺的管道和橋樑,是構成數據中臺全、統、通的重要基礎。
數據中臺 全 統 通
本文所講的數據集成,主要指的是從不同的數據存放介質將數據同步至數據中臺的環節,在某些場景下,也可以稱作「數據採集」、「數據同步」、「數據上雲」。
2 準備工作
在數據集成實施開發前,我們一般要進行以下調研和準備工作:
-
數據源分類:見上一期的 數據中臺之數據源,確定數據源種類,並根據數據及時性要求,確定採集的技術組件
- 網絡和環境:確定數據源的網絡和環境信息,根據實施集成方案,對現有的網絡和環境進行必要的改造和優化
-
數據內容:調研數據的全量大小、增量大小、分佈情況
-
數據質量:調研數據的增量標記、索引、主鍵信息等
- 數據範圍:調研需要集成的數據範圍,篩選出需要集成到數據中臺的相關數據,一般以支撐業務流程或帶業務屬性的數據爲主
3 業務架構
針對採集的業務內容,以及常見的同步分類,我們將數據集成的業務架構整理如下:
數據集成的業務架構
4 集成流程
以下通過幾個典型的數據同步場景案例,來介紹數據同步流程。
3.1 關係型數據庫離線同步流程
關係型數據庫離線同步流程
3.2 API類數據同步
API類數據同步
3.3 實時類數據同步
實時類數據同步
5 袋鼠雲數棧 DTinsight - 數據同步模塊
數據同步模塊是在各個存儲單元之間執行數據交換的管道。
爲了在「DTinsightIDE」進行大規模數據集的挖掘與計算,通常的做法是在任務執行前將數據傳輸至DTinsightIDE,並在任務執行結束後將計算結果傳輸至外部存儲單元(例如MySQL等應用數據庫)。
數據集成的作用如下圖所示:
袋鼠雲數棧-數據同步模塊
袋鼠雲數棧-數據同步模塊的具有以下
-
豐富的數據源支持
數據同步模塊可對MySQL、Oracle、SQLServer、PostgreSQL、HDFS、Hive、HBase、FTP、ElasticSearch、ODPS、ElasticSearch、Redis、MongoDB等數據源,支持對這些數據源進行讀取或寫入數據。使用時僅需配置數據源的連接信息(例如填寫Oracle數據庫的JDBC URL、用戶名、密碼等信息),再配置對應的數據同步任務即可。 -
分佈式系統架構
數據同步模塊在系統架構上採用先進的分佈式系統架構(FlinkX[1]),可實現多個節點併發讀取、寫入數據,可極大的提升數據同步的吞吐量,相比Sqoop、Kettle等開源數據同步方案,數據吞吐能力更高、配套功能。 -
可視化配置
用戶在使用數據同步模塊時,可快速通過可視化配置的方式完成同步任務的創建與配置,主要包括同步任務選擇源庫源表、目標庫目標表、配置字段映射、配置同步速度等。 -
全量/增量同步
從業務系統讀取數據的過程中,爲了最小化對業務系統的影響,通常需要進行數據的增量同步。在源數據庫表中具備數據變更時間字段的情況下,支持對關係型數據庫進行增量數據同步,用戶僅需輸入相應的數據過濾語句即可實現。 -
同步速度的控制
支持數據同步速度控制,通過設置同步速率上限來調整,此參數需根據硬件配置和數據量來調整,用戶根據業務需求選擇設定的值。 - 髒數據管理
支持對髒數據是否需要記錄進行配置,可指定髒數據的存儲表名、生命週期,同時可配置當髒數據量超過一定數量或一定比例時任務置爲失敗,提示用戶及時排查髒數據問題,並生成分析報告。
更多精彩
關於袋鼠雲
袋鼠雲是企業數據化整體解決方案提供商,是數據中臺架構倡導者、引領者,通過打通數據供應鏈,構建企業數據化驅動引擎,加速企業數據化進程,讓數據成爲企業核心競爭力。